Preparação e transformação automática de dados
O conjunto de dados que você selecionou para seu experimento é pré-processado automaticamente para prepará-lo para o treinamento do modelo. As etapas de pré-processamento incluem preparação e transformação de dados. Isso aumenta a qualidade dos dados para fornecer um modelo que produz resultados precisos.
Diversas técnicas de ciência de dados são usadas para pré-processar os dados. A maioria das etapas é executada por padrão e funciona bem em muitos casos de uso. Saber quais são essas etapas padrão — junto com os conceitos subjacentes — pode ajudar você a entender o que precisa fazer com os dados para seu caso de uso específico antes de usá-los para treinar um modelo.
Configuração do experimento
Antes do início do pré-processamento, o AutoML executa várias etapas preparatórias e oferece uma prévia de como seus dados serão tratados. As seguintes etapas se aplicam:
-
Classifique as colunas no conjunto de dados como tendo um tipo de recurso categórico, numérico, de data ou de texto livre.
-
Os tipos de dados flutuantes, duplos e decimais são sempre considerados numéricos.
-
Colunas com tipo de dados string, contendo uma média inferior a 50 caracteres, são classificadas como categóricas.
-
Colunas com o tipo de dados string, contendo em média 50 ou mais caracteres, são classificadas como texto livre. No entanto, nesta fase, não há garantia de que estas colunas possam ser utilizadas como recursos de texto livre. Requisitos adicionais são verificados durante o pré-processamento. Consulte Etapas de pré-processamento.
-
Os tipos de dados inteiros são sempre considerados numéricos.
-
Os tipos de dados de data e carimbo de data/hora são sempre considerados como tendo o tipo de recurso de data. Durante a configuração do experimento, o AutoML visualiza os recursos de engenharia automática que poderiam ser derivados do recurso de data pai.
-
-
Verifique cada coluna quanto à dispersão, constantes e alta cardinalidade. Exclua a coluna se:
-
A coluna for 50% nula ou mais. A exclusão de registros que contêm um valor nulo para um recurso pode levar ao descarte de exemplos de treinamento úteis. Como alternativa, inferir valores pode salvar o exemplo, mas o registro torna-se apenas uma aproximação da realidade. Portanto, geralmente é melhor excluir recursos com um número alto (acima de 50%) de valores nulos. Observe que 0 nunca é considerado nulo.
-
A coluna tiver o mesmo valor em todas as linhas (constante). Em outras palavras, a coluna possui baixa cardinalidade. Os recursos com apenas um único valor não têm valor preditivo.
-
A coluna é categórica e possui 90% ou mais valores exclusivos (alta cardinalidade). Muitos valores exclusivos dificultam a generalização do modelo além do conjunto de dados de treinamento.
-
Podem ser feitos ajustes na forma como os dados são tratados após o início do pré-processamento.
Etapas de pré-processamento
Depois de selecionar uma coluna alvo, as linhas em que o valor alvo é nulo são identificadas e separadas, deixando as linhas em que o alvo é conhecido como conjunto de treinamento. Somente os dados do conjunto de dados de treinamento são usados para tomar as decisões nas etapas a seguir. As etapas, juntamente com os metadados, serão salvas e aplicadas a quaisquer novos dados para o modelo fazer previsões.
O pré-processamento é realizado nos recursos incluídos sempre que você executa uma nova versão experimental.
-
Calcule e salve a média para valores numéricos e o modo para valores categóricos.
-
Infira os valores ausentes. Para obter mais informações, consulte Inferência de nulos.
-
Codifique as variáveis categóricas.
-
Gere novos recursos a partir de colunas existentes no conjunto de dados. Esses novos recursos de engenharia automática podem melhorar o desempenho e a capacidade preditiva dos modelos que você cria.
As colunas identificadas como possível texto livre são verificadas quanto ao comprimento médio das palavras. Se a coluna tiver um comprimento médio de palavras superior a cinco palavras, ela poderá ser codificada como um recurso de texto livre usando engenharia automática de recursos. Caso contrário, um aviso será mostrado. Se não for utilizável como texto livre, o recurso deverá ser desmarcado se tiver alta cardinalidade.
-
Calcule e salve estatísticas resumidas para cada coluna a ser usada para a escala de recursos.
-
Padronize cada coluna com a escala de recursos.
-
Use retenção automática de dados de treinamento e validação cruzada de cinco vezes. Para obter mais informações, consulte Dados de retenção e validação cruzada.