Codificação categórica
A maioria dos algoritmos de aprendizado de máquina exige que as variáveis sejam numéricas. Como um valor categórico não tem uma relação claramente mensurável com os outros valores na mesma coluna, ele deve primeiro ser convertido em uma representação numérica a ser medida por matemática. O AutoML usa codificação categórica para transformar valores categóricos em colunas de recursos em valores numéricos que os algoritmos de aprendizado de máquina podem entender.
O AutoML usa dois métodos de codificação: impact encoded e one-hot encoded. O método usado em um determinado recurso depende do tamanho do conjunto de dados e do número de valores categóricos exclusivos.
-
Para conjuntos de dados com 100 colunas ou menos:
-
Recursos categóricos com 13 ou menos valores exclusivos são one-hot encoded.
-
Recursos categóricos com mais de 13 valores exclusivos são impact encoded.
-
-
Para conjuntos de dados com mais de 100 colunas, todas as colunas categóricas são impact encoded.
Você pode ver quais recursos em seu conjunto de dados estão sendo processados usando codificação categórica consultando a visualização do esquema ao configurar seu experimento de ML. Para obter mais informações, consulte Configurando experimentos.
Como funciona a codificação categórica
Uma técnica comum para fornecer representação matemática a uma categoria é a codificação one-hot encoded. A codificação one-hot encoded dinamiza a coluna categórica em n número de colunas, em que n é igual ao número de valores exclusivos na coluna. O número 1 é atribuído à coluna apropriada para cada linha e 0 para as outras colunas que foram geradas para a categoria. A codificação categórica permite que cada variável única seja avaliada independentemente das outras, ao contrário de um valor numérico que é avaliado em termos relativos aos outros valores na coluna.
O exemplo na tabela mostra como a coluna categórica MarketingSource foi codificada com one-hot encoded. O resultado são quatro novas colunas — uma para cada fonte de marketing exclusiva. Na primeira linha, Person_1 tem a fonte de marketing "Facebook". Isso é representado por 1 na nova coluna do Facebook e 0 nas outras colunas.