Entendendo os algoritmos de modelo

Um algoritmo é uma receita matemática que produz um modelo. Ela pega uma entrada – seu conjunto de dados – e produz uma saída – o modelo. Cada algoritmo tem diferentes pontos fortes e fracos.

Quando você escolhe um destino, o Qlik Predict seleciona automaticamente os melhores algoritmos para o caso de uso. O alvo determina que tipo de algoritmo usar.

Algoritmos que funcionam melhor com problemas de classificação binária e multiclasse são usados quando:

O alvo tem apenas dois valores exclusivos, como em "Um cliente cancelará sua assinatura?" — Sim ou Não.
O alvo é um valor de string com entre três e dez valores exclusivos. Por exemplo, determinar a combinação ideal de campanha com o alvo sendo "vermelho", "azul", "verde" ou "amarelo".

Algoritmos que funcionam melhor com problemas de regressão são usados se o alvo for uma coluna numérica. Prever quanto um cliente comprará é um exemplo de problema de regressão.

Algoritmos para problemas de classificação binária e multiclasse

O Qlik Predict usa os seguintes algoritmos para problemas de classificação binária e multiclasse:

Classificação CatBoost
Regressão de rede elástica
Gaussian Naive Bayes
Regressão lasso
Classificação LightGBM
Regressão logística
Classificação por floresta aleatória
Classificação XGBoost

Algoritmos para problemas de regressão

O Qlik Predict usa os seguintes algoritmos para problemas de regressão:

Regressão CatBoost
Regressão LightGBM
Regressão linear
Regressão por floresta aleatória
Regressão SGD
Regressão XGBoost

Algoritmos para problemas de séries temporais

O Qlik Predict usa os seguintes algoritmos para problemas de séries temporais:

DeepAR de séries temporais
Misturador de séries temporais
Codificador Denso de séries temporais

Diferentes tipos de modelos

Os tipos de modelos podem ser divididos em modelos de regressão, montagens, modelos de séries temporais e outros tipos de modelos de aprendizado de máquina.

Modelos de regressão

Modelos de regressão, ou modelos lineares gerais, são modelos que buscam tendências ao longo do domínio de cada variável independentemente um do outro. Como a equação algébrica y = mx+b, o algoritmo procura escolher um m e um b que produzirá a maior exatidão, em média, para cada valor x e y. Geralmente é o mesmo conceito quando há mais de uma variável. Regressão linear e regressão logística são exemplos de modelos de regressão para problemas de regressão e problemas de classificação, respectivamente.

Para problemas de classificação, a saída do modelo de regressão é a probabilidade de que a amostra seja a classe positiva. Isso significa que y é igual à probabilidade e não a um valor real.

As regressões são boas para encontrar tendências lineares nos dados, mas às vezes há uma relação que não é linear. Para que uma regressão possa se ajustar bem a um padrão não linear, a transformação de dados é necessária antes de treinar o modelo. O benefício da forte compreensão das relações lineares é que as relações lineares geralmente funcionam melhor com a extrapolação. A tabela lista prós e contras para modelos de regressão.

Prós	Contras
Bom em extrapolar Bom em encontrar tendências lineares para variáveis independentes Bom com grandes dados da mesma população Simples de entender	Ruim em explorar padrões entre variáveis Ruim em ajustar tendências não lineares Às vezes muito simplista

Modelos de conjunto

Conjuntos são quando vários modelos são combinados. Isso pode ser comparado a um grupo de pessoas com diferentes origens votando e usando a média de votos para decidir. Floresta aleatória e XGBoost são exemplos de modelos de conjunto.

Conjuntos podem resolver problemas de regressão e problemas de classificação. Eles são bons em encontrar relações não lineares e em descobrir como as interações entre as variáveis afetam o alvo. Embora os conjuntos sejam bons em aprender os padrões dentro do intervalo de dados em que são treinados, eles têm um desempenho ruim na previsão de valores fora do intervalo que viram. A tabela lista prós e contras de modelos de conjunto.

Prós	Contras
Bom em explorar padrões entre variáveis Bom em encontrar tendências não lineares Bom com grandes dados da mesma população	Ruim em extrapolar Não é tão fácil de interpretar

Modelos de séries temporais

Os modelos de séries temporais são treinados com algoritmos de aprendizado profundo que utilizam aceleração por GPU e métodos baseados em redes neurais. Esses modelos são treinados para produzir previsões correspondentes a datas e horas específicas. Os modelos de séries temporais suportam previsões que envolvem metas multivariadas, bem como covariáveis estáticas, passadas e futuras.

Os modelos de séries temporais exigem grandes quantidades de capacidade de computação.

Outros tipos de modelo

Outros tipos de modelo incluem todos os outros tipos de modelo. Exemplos incluem Vizinhos mais próximos e Gaussian Naive Bayes. Esses tipos de modelos geralmente tentam criar uma nova representação espacial dos dados, geralmente fazendo isso criando algum tipo de métrica de distância que mede a diferença entre dois registros. Eles podem ser bons em lidar com tendências não lineares, mas são computacionalmente muito mais caros à medida que o tamanho do conjunto de dados aumenta. A tabela lista prós e contras de outros modelos.

Prós	Contras
Bom em explorar padrões entre variáveis Bom em encontrar tendências não lineares	Ruim em extrapolar Computacionalmente mais caro em conjuntos de dados maiores

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui