Crear nuevas columnas de características
La ingeniería de características es el proceso de crear nuevas columnas de características a partir de las actuales. Puede ayudarle a obtener poder predictivo adicional a partir de los datos de origen que ha recopilado para responder una pregunta comercial.
Por ejemplo, la dirección de un cliente se excluiría de los datos de entrenamiento debido a la alta cardinalidad. En lugar de usar la dirección, podríamos diseñar una columna de distancia. Si conocemos la dirección del cliente junto con varias ubicaciones de tiendas, se pueden calcular las distancias a las tiendas. Las nuevas columnas tendrán un valor numérico que se puede usar para descubrir patrones medibles en los datos.
Puede realizar ingeniería de características en su conjunto de datos, en preparación para utilizarlas en AutoML. Además, AutoML sugiere nuevas características que se pueden generar automáticamente a partir de características previas.
Revise las características de su conjunto de datos para determinar los posibles problemas que puedan existir o las mejoras que se pueden realizar. Diseñar buenas características requiere habilidad y experiencia de negocio. Deseamos que las características se expresen de una manera que se vincule directamente con la columna objetivo.
Cuestiones que tenemos que considerar:
-
¿Debería el tiempo ser un factor en la característica?
-
¿Importa la velocidad de cambio?
-
¿Debería normalizarse una característica para tener en cuenta las diferencias entre subconjuntos de datos?
-
Los valores nulos, ¿significan algo?
Características generadas mediante ingeniería automática
Con la ingeniería automática de características, se crean automáticamente nuevas características a partir de las ya existentes.
AutoML genera características diseñadas automáticamente a partir de columnas que contienen información de fecha y hora. Estas nuevas características separan cada componente de los valores de la columna en sus propias características.
Además, se puede aplicar un procesamiento especial a las columnas que contienen texto libre. Las características originales de texto libre se transforman en nuevas características para mejorar el entrenamiento del modelo.
Las características diseñadas automáticamente mejoran el valor predictivo y analítico de sus modelos a medida que los entrena. Para más información, vea Ingeniería automática de características.
Ejemplos: características de ingeniería
Utilice los ejemplos siguientes para empezar a pensar en cómo diseñar características que puedan mejorar la naturaleza predictiva de sus datos.
¿Se cerrará una oportunidad de venta?
La columna objetivo representa si la oportunidad de venta se cerró (Sí o No).
-
Característica original: número de reuniones
-
Características alternativas: reuniones al mes o número de reuniones en una etapa concreta.
La transformación de la medida en frecuencia de reunión tiene más en cuenta el cambio. Medir las reuniones en una etapa específica del proceso de ventas expresa mejor el impulso de las ventas y tiene en cuenta el ciclo.
Predecir el importe de una transacción futura
La columna objetivo es el importe de la siguiente transacción.
-
Característica original: el importe del último pedido
-
Características alternativas: la media del importe del pedido o el porcentaje de cambio en el importe del pedido.
La media del importe ofrece una visión más amplia del comportamiento de los pedidos. El cambio en el patrón de compra proporciona un valor normalizado.
¿Abandonará un cliente?
La columna objetivo es si el cliente se dará de baja (Sí o No).
-
Característica original: el sentimiento del cliente
-
Características alternativas: cambios en el sentimiento del cliente o número de días con el sentimiento actual.
Medir el cambio en la opinión del cliente es muy probable que conduzca a la acción. El número de días da la duración del estado actual.
¿Se irá un empleado voluntariamente?
La columna objetivo es si un empleado se irá (Sí o No).
-
Característica original: salario que percibe
-
Características alternativas: salario comparado con los compañeros o salario comparado con la media del sector.
Comparar el salario con el de puestos equivalentes se alinea mejor con la experiencia o el sentir del empleado. La comparación con el salario promedio del sector se alinea mejor con el coste de oportunidad del empleado.
¿Se convertirá un lead en una oportunidad?
La columna objetivo es si un cliente potencial se convierte en cliente (Sí o No).
-
Característica original: ¿Cómo nos encontró?
-
Características alternativas: Respondido (Sí o No)
La acción es lo que importa aquí y no cuál fue la respuesta. Tenga en cuenta que en este caso, los valores nulos significan algo: inacción.
Fechas
Con la funcionalidad de ingeniería automática de características de AutoML, los componentes de fechas y marcas de tiempo se analizan automáticamente en columnas separadas.
Las fechas también se pueden diseñar de muchas otras maneras, para crear varias características en un conjunto de datos, como por ejemplo:
-
Agregar fechas en temporadas, trimestres o semestres.
-
Calcular la diferencia de fechas, por ejemplo, el número de días desde la última compra.