Familiarisation avec les algorithmes d'un modèle
Un algorithme est une recette mathématique qui produit un modèle. Il prend une entrée (votre ensemble de données) et produit une sortie (le modèle). Chaque algorithme présente des avantages et des inconvénients différents.
Lorsque vous sélectionnez une cible, AutoML sélectionne automatiquement les meilleurs algorithmes en fonction du cas d'utilisation. La cible détermine le type d'algorithmes à utiliser.
Les algorithmes qui fonctionnent le mieux avec des problèmes de classification binaire et multiclasse sont utilisés dans les cas suivants :
-
La cible comporte uniquement deux valeurs uniques, par exemple « Un client va-t-il annuler son abonnement ? »—Oui ou Non.
-
La cible est une valeur de type chaîne comprenant entre trois et dix valeurs uniques. Par exemple, la détermination de la campagne mixte optimale dont la cible est « rouge », « bleu », « vert » ou « jaune ».
Les algorithmes qui fonctionnent le mieux avec les problèmes de régression sont utilisés si la cible est une colonne numérique. La projection du montant des achats d'un client est un exemple de problème de régression.
Algorithmes destinés aux problèmes de classification binaire et multiclasse
AutoML utilise les algorithmes suivants pour les problèmes de classification binaire et multiclasse :
-
Classification CatBoost
-
Régression du filet élastique
-
Classification naïve bayésienne gaussienne
-
Régression Lasso
-
Classification LightGBM
-
Régression logistique
-
Classification Forêt d'arbres décisionnels
-
Classification XGBoost
Algorithmes destinés aux problèmes de régression
AutoML utilise les algorithmes suivants pour les problèmes de régression :
-
Régression CatBoost
-
Régression LightGBM
-
Régression linéaire
-
Régression Forêt d'arbres décisionnels
-
Régression SGD
-
Régression XGBoost
Différents types de modèles
Les types de modèles peuvent être divisés en modèles de régression, ensembles et autres types de modèles d'apprentissage automatique.
Modèles de régression
Les modèles de régression, ou modèles linéaires généraux, sont des modèles qui recherchent les tendances le long du domaine de chaque variable indépendamment les unes des autres. Tout comme l'équation algébrique y = mx+b, l'algorithme cherche à sélectionner un m et un b qui produiront la plus grande exactitude, en moyenne, pour chaque valeur x et y. Il s'agit généralement du même concept lorsqu'il existe plus d'une variable. La régression linéaire et la régression logistique sont des exemples de modèles de régression destinés aux problèmes de régression et aux problèmes de classification, respectivement.
Pour les problèmes de classification, la sortie du modèle de régression est la probabilité que l'échantillon est la classe positive. Cela signifie que y équivaut à la probabilité et non à une valeur réelle.
Les régressions sont performantes pour trouver les tendances linéaires dans des données, mais il existe parfois une relation qui n'est pas linéaire. Pour qu'une régression puisse bien s'adapter à un pattern non linéaire, il convient de transformer les données avant de former le modèle. La bonne compréhension des relations linéaires offre l'avantage suivant : les relations linéaires sont généralement optimales avec l'extrapolation. Le tableau indique les avantages et les inconvénients des modèles de régression.
Avantages | Inconvénients |
---|---|
|
|
Modèles ensemblistes
Des ensembles sont des combinaisons de plusieurs modèles. On peut les comparer à un groupe de personnes aux antécédents différents qui votent et utilisent le vote moyen pour prendre une décision. La Forêt d'arbres décisionnels et XGBoost sont des exemples de modèles ensemblistes.
Les ensembles peuvent résoudre des problèmes de régression et des problèmes de classification. Ils sont efficaces pour trouver les relations non linéaires et la manière dont les interactions entre variables affectent la cible. Même si les ensembles sont efficaces pour apprendre les patterns de la plage de données sur laquelle ils sont formés, ils le sont peu pour prédire les valeurs en dehors de la plage qu'ils ont vue. Le tableau indique les avantages et les inconvénients des modèles ensemblistes.
Avantages | Inconvénients |
---|---|
|
|
Autres types de modèles
Les autres types de modèles incluent tous les autres types de modèles. Par exemple, les modèles Plus proches voisins et Classification naïve bayésienne gaussienne. Ces types de modèles tentent généralement de créer une nouvelle représentation spatiale des données, souvent en générant un type de métrique de distance qui mesure la différence entre deux enregistrements. Ils peuvent être efficaces pour traiter les tendances non linéaires, mais ils s'avèrent beaucoup plus chers, du point de vue du calcul, à mesure de l'augmentation de la taille de l'ensemble de données. Le tableau indique les avantages et les inconvénients des autres modèles.
Avantages | Inconvénients |
---|---|
|
|