Ir para conteúdo principal Pular para conteúdo complementar

Preparando seu conjunto de dados para o treinamento

Você treina um conjunto de dados para responder à sua pergunta de aprendizado de máquina. O conjunto de dados de treinamento inclui uma coluna para cada recurso, bem como uma coluna que contém o alvo. Os algoritmos de aprendizado de máquina aprendem padrões gerais dessas linhas de dados para gerar um modelo que pode prever o alvo.

Para preparar o aprendizado de máquina do conjunto de dados, você precisa entender seus dados e coletar os pontos de dados necessários. Você também pode precisar transformar alguns dos dados e remover dados que não são relevantes para seu caso de uso.

Quais dados você deve coletar?

Defina sua pergunta de aprendizado de máquina com precisão e decida exatamente o que precisa ser agregado para abordar essa pergunta:

  • Se você deseja prever quais clientes irão cancelar, você precisa agregar um conjunto de dados em que cada linha representa um cliente, cada coluna de recurso representa um recurso que descreve esse cliente e a coluna alvo é se esse cliente cancelou em um determinado período.

  • Se quiser prever quais serão as vendas para um determinado mês e região, você precisa agregar um conjunto de dados em que cada linha representa um determinado mês para uma determinada região, cada coluna de recurso representa um recurso que descreve os negócios daquele mês naquela região, e a coluna alvo é a receita de vendas dessa região naquele mês.

Tente descobrir quais coisas podem influenciar o alvo e veja se esses dados podem ser coletados. Lembre-se que os algoritmos preditivos só podem identificar padrões que podem ser encontrados. Talvez você precise coletar ou criar recursos adicionais para extrair informações adicionais?

Você também deve determinar a quantidade de dados que precisa acumular para poder prever com exatidão. Quanto tempo leva até que o evento se torne representativo? Considere os seguintes exemplos:

  • Os clientes precisam ser membros há 60 dias para que você possa prever se eles sairão no dia 90.

  • O custo das reivindicações de seguro não será conhecido por alguns meses, portanto, você pode excluir reivindicações com menos de seis meses.

Diferencie entre dados variantes de tempo e dados não variantes de tempo. Com dados de variantes de tempo, os dados com registro de data e hora devem ser agregados adequadamente?

Os dados estarão disponíveis no momento da previsão?

Certifique-se de que todos os recursos incluídos no conjunto de dados de treinamento também estejam disponíveis para previsões futuras. É um erro comum treinar o modelo em recursos que você tem disponíveis para dados históricos, mas que não estarão disponíveis no momento em que você fizer uma previsão no futuro. Ao fazer previsões sobre novos dados, o algoritmo de aprendizado de máquina deve ter valores para todos os recursos disponíveis no conjunto de dados de treinamento.

É melhor mais dados?

Tamanho da amostra

Um volume maior de dados tende a produzir modelos mais confiáveis. Quaisquer pontos de dados relevantes adicionais ajudarão, sejam eles observações novas ou históricas.

Número de recursos

Pode ser tentador incluir todas as variáveis possíveis no modelo, independentemente da relevância para o resultado desejado. Mais simples normalmente é melhor. Geralmente é melhor usar um número menor de recursos no modelo.

Quando há mais recursos, pode haver mais risco de potencialmente encobrir o verdadeiro relacionamento subjacente que você deseja descobrir. O modelo preditivo pode usar todos os recursos para criar uma série de regras complicadas que funcionam bem em relação aos dados usados para treinar o modelo. Mas, na verdade, o alvo previsto pode ser influenciado apenas por um ou dois recursos. O modelo pode não ser bom em generalizar para dados fora do que foi usado no treinamento, o que resultaria em desempenho preditivo ruim quando aplicado a novos dados.

Sobreajuste

Sobreajuste significa que um modelo é excessivamente complexo e, como resultado, não é confiável para prever novos dados. O sobreajuste geralmente acontece quando há muitos recursos em relação ao número de pontos de dados disponíveis. Por exemplo, você pode ter apenas 50 linhas de dados e 100 colunas de recursos no conjunto de dados.

Seus dados de treinamento são relevantes?

Um algoritmo de aprendizado de máquina encontra padrões nos dados que você alimenta e usa esses padrões para fazer previsões sobre os dados no futuro. Ao fazer previsões sobre novos dados, você assume que eles são semelhantes aos dados de treinamento. Por esse motivo, é importante que o conjunto de dados de treinamento se assemelhe estatisticamente aos dados sobre os quais você fará previsões.

Se o mercado ou a empresa mudou significativamente em relação ao que seu conjunto de dados de treinamento descreve, provavelmente você está usando um conjunto de dados desatualizado que levará a previsões imprecisas. Pode ser necessário criar um novo conjunto de dados de treinamento e usar apenas os dados coletados após a ocorrência da alteração.

Considere o exemplo sobre previsões de vendas em Noções básicas sobre o aprendizado de máquina. Digamos que inserimos dados em nosso algoritmo que representavam gastos com propaganda na televisão, rádio e jornal, bem como receita de vendas para trimestres históricos de negócios. No entanto, os dados foram coletados na década de 1980. Agora deixamos de anunciar aquele produto na rádio e passamos a anunciar quase exclusivamente o produto online. Nosso algoritmo treinado teria um desempenho ruim na previsão de vendas para o trimestre comercial atual porque os dados de treinamento não são representativos do negócio atual.

Explorar os dados

Use seu conhecimento de negócios para entender e validar os dados. Se os dados não estiverem alinhados com suas suposições, isso pode significar problemas de dados ou pode significar que suas suposições estão erradas?

Remover recursos não confiáveis

Considere excluir colunas do conjunto de dados em que:

  • Há uma alta concentração de um valor (baixa cardinalidade). Por exemplo, uma coluna com os valores "vermelho", "verde", "azul" em que 90% dos valores são "vermelho".

  • Os valores são altamente exclusivos (alta cardinalidade).

  • A maioria dos valores são nulos.

Tratar recursos correlacionados

Remova recursos redundantes, como recursos altamente correlacionados que fornecem informações iguais ou muito semelhantes. Considere selecionar um único recurso de grupos que parecem capturar os mesmos comportamentos nos dados. Tente determinar se há um recurso que está impulsionando o outro.

Substituir valores nulos

Explore seus dados para descobrir se há valores ausentes nos principais pontos de dados, como o alvo ou os recursos principais. Para usar valores de uma coluna esparsa, você pode substituir valores nulos por "outros" ou "desconhecidos". Ou talvez você precise reavaliar a coleta de dados.

Intervalo alvo

Observe a distribuição dos dados. Se a distribuição dos dados alvo estiver muito espalhada em relação ao tamanho da amostra, pode ser difícil encontrar qualquer padrão em seus dados.

Qual é o intervalo de valores de dados? Existem alguns desafios na previsão de valores de dados fora do intervalo. Leia mais em Extrapolação e interpolação.

Há anormalidades na distribuição? Distorção, caudas e formas multimodais em seus dados podem exigir transformação de dados adicional ou mais engenharia de recursos. Tente agrupar categorias de baixo volume e arredondar ou remover caudas em recursos numéricos.

Eliminar discrepâncias

Considere a remoção de observações com valores discrepantes nas colunas de recursos. Discrepâncias podem impedir a capacidade de um algoritmo de discernir padrões gerais nos dados. Pode ser melhor examinar um subconjunto menor de dados que tenha uma distribuição mais restrita na coluna alvo.

Agrupamento de dados

Você pode melhorar seus resultados dividindo os dados em diferentes conjuntos de dados e usando-os para treinar modelos separados. Baseie o agrupamento de dados em um ou mais recursos.

Vazamento de dados

Vazamento de dados significa que os dados usados para treinar um algoritmo de aprendizado de máquina incluem as informações que você está tentando prever.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!