Saltar al contenido principal Saltar al contenido complementario

Crear nuevas columnas de características

La ingeniería de características es el proceso de crear nuevas columnas de características a partir de las actuales. Puede ayudarle a obtener poder predictivo adicional a partir de los datos de origen que ha recopilado para responder una pregunta comercial.

Por ejemplo, la dirección de un cliente se excluiría de los datos de entrenamiento debido a la alta cardinalidad. En lugar de usar la dirección, podríamos diseñar una columna de distancia. Si conocemos la dirección del cliente junto con varias ubicaciones de tiendas, se pueden calcular las distancias a las tiendas. Las nuevas columnas tendrán un valor numérico que se puede usar para descubrir patrones medibles en los datos.

Puede realizar ingeniería de características en su conjunto de datos, en preparación para utilizarlas en AutoML. Además, AutoML sugiere nuevas características que se pueden generar automáticamente a partir de características previas.

Nuevas columnas para distancias a diferentes tiendas.

Tabla con datos de muestra.

Revise las características de su conjunto de datos para determinar los posibles problemas que puedan existir o las mejoras que se pueden realizar. Diseñar buenas características requiere habilidad y experiencia de negocio. Deseamos que las características se expresen de una manera que se vincule directamente con la columna objetivo.

Cuestiones que tenemos que considerar:

  • ¿Debería el tiempo ser un factor en la característica?

  • ¿Importa la velocidad de cambio?

  • ¿Debería normalizarse una característica para tener en cuenta las diferencias entre subconjuntos de datos?

  • Los valores nulos, ¿significan algo?

Características generadas mediante ingeniería automática

Con la ingeniería automática de características, se crean automáticamente nuevas características a partir de las ya existentes.

AutoML genera características diseñadas automáticamente a partir de columnas que contienen información de fecha y hora. Estas nuevas características separan cada componente de los valores de la columna en sus propias características.

Además, se puede aplicar un procesamiento especial a las columnas que contienen texto libre. Las características originales de texto libre se transforman en nuevas características para mejorar el entrenamiento del modelo.

Las características diseñadas automáticamente mejoran el valor predictivo y analítico de sus modelos a medida que los entrena. Para más información, vea Ingeniería automática de características.

Ejemplos: Desarrollar características

Utilice los ejemplos siguientes para empezar a pensar en cómo diseñar características que puedan mejorar la naturaleza predictiva de sus datos.

¿Se cerrará una oportunidad de venta?

La columna objetivo representa destino es si la oportunidad de venta se cerró (Sí o No).

  • Característica original: Número de reuniones

  • Características alternativas: Número de reuniones al mes o número de reuniones en una etapa concreta

La transformación de la medida en frecuencia de reunión tiene más en cuenta el cambio. Medir las reuniones en una etapa específica del proceso de ventas expresa mejor el impulso de las ventas y tiene en cuenta el ciclo.

Predecir el montante de una transacción futura

La columna objetivo es el importe de la siguiente transacción.

  • Característica original: Importe del último pedido

  • Características alternativas: El importe medio de los pedidos o la variación porcentual del importe de los pedidos

El importe medio ofrece una visión más amplia del comportamiento de los pedidos. El cambio en el patrón de compra proporciona un valor normalizado.

¿Abandonará un cliente?

La columna objetivo es si el cliente se dará de baja (Sí o No).

  • Característica original: Opiniones de los clientes

  • Características alternativas: Cambio en la opinión del cliente o número de días con la opinión actual

Es más probable que medir el cambio en la opinión del cliente lleve a la acción. El número de días da la duración del estado actual.

¿Se irá un empleado voluntariamente?

La columna objetivo es si un empleado se irá (Sí o No).

  • Característica original: Salario

  • Características alternativas: Salario en comparación con puestos equivalentes o salario en comparación con el promedio del sector

Comparar el salario con el de puestos equivalentes se alinea mejor con la experiencia o el sentir del empleado. La comparación con el salario promedio del sector se alinea mejor con el coste de oportunidad del empleado.

¿Se convertirá un lead en una oportunidad?

La columna objetivo es si un cliente potencial se convierte en cliente (Sí o No).

  • Característica original: ¿Cómo nos ha encontrado?

  • Características alternativas: Respondido (Sí o No)

La acción es lo que importa aquí y no cuál fue la respuesta. Tenga en cuenta que en este caso, los valores nulos significan algo: inacción.

Fechas

Con la funcionalidad de ingeniería automática de características de AutoML, los componentes de fechas y marcas de tiempo se analizan automáticamente en columnas separadas.

Las fechas también se pueden diseñar de muchas otras maneras, para crear varias características en un conjunto de datos, como por ejemplo:

  • Agregar fechas en temporadas, trimestres o semestres.

  • Calcular la diferencia de fechas, por ejemplo, el número de días desde la última compra.

APRENDIZAJE RELACIONADO:

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.