Codificación categórica
La mayoría de algoritmos de aprendizaje automático requieren que las variables sean numéricas. Debido a que un valor categórico no tiene una relación claramente medible con los otros valores en esa misma columna, primero debe convertirse en una representación numérica para ser medido matemáticamente. Qlik Predict utiliza la codificación categórica para transformar los valores categóricos de las columnas de características en valores numéricos que los algoritmos de aprendizaje automático puedan entender.
Qlik Predict utiliza tres métodos de codificación: codificación por impacto, codificación en caliente (one-hot) y codificación ordinal. El método utilizado en una característica particular depende de las características de los datos, la cantidad de valores categóricos únicos y el tipo de experimento.
-
Para problemas de clasificación y regresión:
-
Para conjuntos de datos con 100 o menos columnas:
-
Las características categóricas con 13 o menos valores únicos se codifican en caliente.
-
Las características categóricas con más de 13 valores únicos se codifican por impacto.
-
-
Para conjuntos de datos con más de 100 columnas, todas las columnas categóricas tienen codificación de impacto.
-
-
Para problemas de series temporales, las columnas categóricas se codifican utilizando codificación ordinal.
Puede ver qué características de su conjunto de datos se procesan mediante la codificación categórica consultando la vista de esquema cuando configura su experimento de ML. Para más información, vea Configurar experimentos.
¿Cómo funciona la codificación categórica?
Una técnica habitual para dar una representación matemática a una categoría es la codificación en caliente o "one-hot". La codificación en caliente gira la columna categórica en n número de columnas, donde n es igual al número de valores únicos de la columna. El número 1 se asigna a la columna adecuada para cada fila y el 0 a las demás columnas que se generaron para la categoría. La codificación categórica permite que cada variable única se evalúe independientemente de las demás, a diferencia de un valor numérico que se evalúa en términos relativos a los demás valores de la columna.
El ejemplo de la tabla muestra cómo se ha codificado en caliente la columna categórica MarketingSource. El resultado son cuatro nuevas columnas, una para cada fuente de marketing única. En la primera fila, Person_1 tiene la fuente de marketing "Facebook". Esto viene representado por 1 en la nueva columna de Facebook y 0 en las otras columnas.
Codificación categórica de la columna MarketingSource
