Preparação e transformação automática de dados

O conjunto de dados que você selecionou para seu experimento é pré-processado automaticamente para prepará-lo para o treinamento do modelo. As etapas de pré-processamento incluem preparação e transformação de dados. Isso aumenta a qualidade dos dados para fornecer um modelo que produz resultados precisos.

Diversas técnicas de ciência de dados são usadas para pré-processar os dados. A maioria das etapas é executada por padrão e funciona bem em muitos casos de uso. Saber quais são essas etapas padrão — junto com os conceitos subjacentes — pode ajudar você a entender o que precisa fazer com os dados para seu caso de uso específico antes de usá-los para treinar um modelo.

Configuração do experimento

Antes do início do pré-processamento, o Qlik Predict executa várias etapas preparatórias e oferece uma prévia de como seus dados serão tratados. Algumas etapas dependem do tipo de experimento e de outros fatores. As seguintes etapas podem se aplicar:

Classifique as colunas no conjunto de dados como tendo um tipo de recurso categórico, numérico, de data ou de texto livre.
- Os tipos de dados flutuantes, duplos e decimais são sempre considerados numéricos.
- Colunas com tipo de dados string, contendo uma média inferior a 50 caracteres, são classificadas como categóricas.
- Colunas com o tipo de dados string, contendo em média 50 ou mais caracteres, são classificadas como texto livre. No entanto, nesta fase, não há garantia de que estas colunas possam ser utilizadas como recursos de texto livre. Requisitos adicionais são verificados durante o pré-processamento. Consulte Etapas de pré-processamento.
- Os tipos de dados inteiros são sempre considerados numéricos.
- Os tipos de dados de data e carimbo de data/hora são sempre considerados como tendo o tipo de recurso de data. Durante a configuração do experimento, o Qlik Predict visualiza os recursos de engenharia automática que poderiam ser derivados do recurso de data pai.
Verifique cada coluna quanto à dispersão, constantes e alta cardinalidade. Exclua a coluna se:
- A coluna for 50% nula ou mais. A exclusão de registros que contêm um valor nulo para um recurso pode levar ao descarte de exemplos de treinamento úteis. Como alternativa, inferir valores pode salvar o exemplo, mas o registro torna-se apenas uma aproximação da realidade. Portanto, geralmente é melhor excluir recursos com um número alto (acima de 50%) de valores nulos. Observe que 0 nunca é considerado nulo.
- A coluna tiver o mesmo valor em todas as linhas (constante). Em outras palavras, a coluna possui baixa cardinalidade. Os recursos com apenas um único valor não têm valor preditivo.
- A coluna é categórica e possui 90% ou mais valores exclusivos (alta cardinalidade). Muitos valores exclusivos dificultam a generalização do modelo além do conjunto de dados de treinamento.

Podem ser feitos ajustes na forma como os dados são tratados após o início do pré-processamento.

Etapas de pré-processamento

Depois que você selecionar uma coluna de destino, as próximas etapas dependerão do tipo de experimento. Para experimentos de classificação e regressão, as linhas onde o valor alvo é nulo são identificadas e separadas, deixando as linhas onde o valor alvo é conhecido como conjunto de treinamento. Para experimentos de séries temporais, os valores-alvo ausentes são interpolados.

Somente os dados do conjunto de dados de treinamento são usados para tomar as decisões nas etapas a seguir. As etapas, juntamente com os metadados, serão salvas e aplicadas a quaisquer novos dados para o modelo fazer previsões.

O pré-processamento é realizado nos recursos incluídos sempre que você executa uma nova versão experimental. Algumas etapas dependem do tipo de experimento e de outros fatores.

Calcule e salve a média para valores numéricos e o modo para valores categóricos.
Infira os valores ausentes. Para obter mais informações, consulte Inferência de nulos.
Codifique as variáveis categóricas.
Para modelos de séries temporais, várias etapas são executadas para validar as propriedades do experimento configuradas pelo usuário e para fornecer informações adicionais ao usuário após o término do treinamento:
- A janela máxima de previsão é determinada.
- A etapa de tempo do índice de data é confirmada.
- Os grupos-alvo selecionados pelo usuário são validados ou, se não forem especificados, são identificados se estiverem presentes a partir dos recursos categóricos incluídos.
Gere novos recursos a partir de colunas existentes no conjunto de dados. Esses novos recursos de engenharia automática podem melhorar o desempenho e a capacidade preditiva dos modelos que você cria.

As colunas identificadas como possível texto livre são verificadas quanto ao comprimento médio das palavras. Se a coluna tiver um comprimento médio de palavras superior a cinco palavras, ela poderá ser codificada como um recurso de texto livre usando engenharia automática de recursos. Caso contrário, um aviso será mostrado. Se não for utilizável como texto livre, o recurso deverá ser desmarcado se tiver alta cardinalidade.
Calcule e salve estatísticas resumidas para cada coluna a ser usada para a escala de recursos.
Padronize cada coluna com a escala de recursos.
Realizar análise em recursos que foram selecionados para detecção de viés, retornando métricas de viés de dados e ideias correspondentes. Para obter mais informações, consulte Detectando viés em modelos de aprendizado de máquina.
Use retenção automática de dados de treinamento e validação cruzada de cinco vezes. Para obter mais informações, consulte Dados de retenção e validação cruzada.
Calcule várias estatísticas sobre o conjunto de dados com maior certeza. Por exemplo, novas informações podem se tornar disponíveis sobre o tamanho do conjunto de dados, contagens de linhas e células e proporções de valores nulos. Para obter mais informações, consulte Limitações do conjunto de dados de treinamento e de criação de perfil.

Saiba mais

Engenharia automática de recursos

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui