Ir para conteúdo principal Pular para conteúdo complementar

Entendendo os algoritmos de modelo

Um algoritmo é uma receita matemática que produz um modelo. Ela pega uma entrada – seu conjunto de dados – e produz uma saída – o modelo. Cada algoritmo tem diferentes pontos fortes e fracos.

Quando você escolhe um destino, o AutoML seleciona automaticamente os melhores algoritmos para o caso de uso. O alvo determina que tipo de algoritmo usar.

Algoritmos que funcionam melhor com problemas de classificação binária e multiclasse são usados quando:

  • O alvo tem apenas dois valores exclusivos, como em "Um cliente cancelará sua assinatura?" — Sim ou Não.

  • O alvo é um valor de string com entre três e dez valores exclusivos. Por exemplo, determinar a combinação ideal de campanha com o alvo sendo "vermelho", "azul", "verde" ou "amarelo".

Algoritmos que funcionam melhor com problemas de regressão são usados se o alvo for uma coluna numérica. Prever quanto um cliente comprará é um exemplo de problema de regressão.

Algoritmos para problemas de classificação binária e multiclasse

O AutoML usa os seguintes algoritmos para problemas de classificação binária e multiclasse:

  • Classificação Catboost

  • Regressão de rede elástica

  • Gaussiano Naive Bayes

  • Regressão lasso

  • Classificação do LightGBM

  • Regressão logística

  • Classificação por floresta aleatória

  • Classificação XGBoost

Algoritmos para problemas de regressão

O AutoML usa os seguintes algoritmos para problemas de regressão:

  • Regressão Catboost

  • Regressão do LightGBM

  • Regressão linear

  • Regressão por floresta aleatória

  • Regressão SGD

  • Regressão XGBoost

Diferentes tipos de modelos

Os tipos de modelo podem ser divididos em modelos de regressão, conjuntos e outros tipos de modelos de aprendizado de máquina.

Modelos de regressão

Modelos de regressão, ou modelos lineares gerais, são modelos que buscam tendências ao longo do domínio de cada variável independentemente um do outro. Como a equação algébrica y = mx+b, o algoritmo procura escolher um m e um b que produzirá a maior exatidão, em média, para cada valor x e y. Geralmente é o mesmo conceito quando há mais de uma variável. Regressão linear e regressão logística são exemplos de modelos de regressão para problemas de regressão e problemas de classificação, respectivamente.

Para problemas de classificação, a saída do modelo de regressão é a probabilidade de que a amostra seja a classe positiva. Isso significa que y é igual à probabilidade e não a um valor real.

As regressões são boas para encontrar tendências lineares nos dados, mas às vezes há uma relação que não é linear. Para que uma regressão possa se ajustar bem a um padrão não linear, a transformação de dados é necessária antes de treinar o modelo. O benefício da forte compreensão das relações lineares é que as relações lineares geralmente funcionam melhor com a extrapolação. A tabela lista prós e contras para modelos de regressão.

Prós Contras
  • Bom em extrapolar

  • Bom em encontrar tendências lineares para variáveis independentes

  • Bom com grandes dados da mesma população

  • Simples de entender

  • Ruim em explorar padrões entre variáveis

  • Ruim em ajustar tendências não lineares

  • Às vezes muito simplista

Modelos de conjunto

Conjuntos são quando vários modelos são combinados. Isso pode ser comparado a um grupo de pessoas com diferentes origens votando e usando a média de votos para decidir. Floresta aleatória e XGBoost são exemplos de modelos de conjunto.

Conjuntos podem resolver problemas de regressão e problemas de classificação. Eles são bons em encontrar relações não lineares e em descobrir como as interações entre as variáveis afetam o alvo. Embora os conjuntos sejam bons em aprender os padrões dentro do intervalo de dados em que são treinados, eles têm um desempenho ruim na previsão de valores fora do intervalo que viram. A tabela lista prós e contras de modelos de conjunto.

Prós Contras
  • Bom em explorar padrões entre variáveis

  • Bom em encontrar tendências não lineares

  • Bom com grandes dados da mesma população

  • Ruim em extrapolar

  • Não é tão fácil de interpretar

Outros tipos de modelo

Outros tipos de modelo incluem todos os outros tipos de modelo. Exemplos incluem Vizinhos mais próximos e Gaussian Naive Bayes. Esses tipos de modelos geralmente tentam criar uma nova representação espacial dos dados, geralmente fazendo isso criando algum tipo de métrica de distância que mede a diferença entre dois registros. Eles podem ser bons em lidar com tendências não lineares, mas são computacionalmente muito mais caros à medida que o tamanho do conjunto de dados aumenta. A tabela lista prós e contras de outros modelos.

Prós Contras
  • Bom em explorar padrões entre variáveis

  • Bom em encontrar tendências não lineares

  • Ruim em extrapolar

  • Computacionalmente mais caro em conjuntos de dados maiores

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!