Codificación categórica
La mayoría de algoritmos de aprendizaje automático requieren que las variables sean numéricas. Debido a que un valor categórico no tiene una relación claramente medible con los otros valores en esa misma columna, primero debe convertirse en una representación numérica para ser medido matemáticamente. AutoML emplea codificación categórica para transformar valores categóricos que se encuentran en columnas de características en valores numéricos que los algoritmos de aprendizaje automático puedan entender.
AutoML utiliza dos métodos de codificación: codificación por impacto (impact encoding) y codificación en caliente (one-hot). El método utilizado en una característica particular depende del tamaño del conjunto de datos y la cantidad de valores categóricos únicos.
-
Para conjuntos de datos con 100 o menos columnas:
-
Las características categóricas con 13 o menos valores únicos se codifican en caliente.
-
Las características categóricas con más de 13 valores únicos se codifican por impacto.
-
-
Para conjuntos de datos con más de 100 columnas, todas las columnas categóricas tienen codificación de impacto.
Puede ver qué características de su conjunto de datos se procesan mediante la codificación categórica consultando la vista de esquema cuando configura su experimento de ML. Para más información, vea Configurar experimentos.
¿Cómo funciona la codificación categórica?
Una técnica habitual para dar una representación matemática a una categoría es la codificación en caliente o "one-hot". La codificación en caliente gira la columna categórica en n número de columnas, donde n es igual al número de valores únicos de la columna. El número 1 se asigna a la columna adecuada para cada fila y el 0 a las demás columnas que se generaron para la categoría. La codificación categórica permite que cada variable única se evalúe independientemente de las demás, a diferencia de un valor numérico que se evalúa en términos relativos a los demás valores de la columna.
El ejemplo de la tabla muestra cómo se ha codificado en caliente la columna categórica MarketingSource. El resultado son cuatro nuevas columnas, una para cada fuente de marketing única. En la primera fila, Person_1 tiene la fuente de marketing "Facebook". Esto viene representado por 1 en la nueva columna de Facebook y 0 en las otras columnas.