Familiarisation avec les algorithmes d'un modèle

Un algorithme est une recette mathématique qui produit un modèle. Il prend une entrée (votre ensemble de données) et produit une sortie (le modèle). Chaque algorithme présente des avantages et des inconvénients différents.

Lorsque vous sélectionnez une cible, AutoML sélectionne automatiquement les meilleurs algorithmes en fonction du cas d'utilisation. La cible détermine le type d'algorithmes à utiliser.

Les algorithmes qui fonctionnent le mieux avec des problèmes de classification binaire et multiclasse sont utilisés dans les cas suivants :

La cible comporte uniquement deux valeurs uniques, par exemple « Un client va-t-il annuler son abonnement ? »—Oui ou Non.
La cible est une valeur de type chaîne comprenant entre trois et dix valeurs uniques. Par exemple, la détermination de la campagne mixte optimale dont la cible est « rouge », « bleu », « vert » ou « jaune ».

Les algorithmes qui fonctionnent le mieux avec les problèmes de régression sont utilisés si la cible est une colonne numérique. La projection du montant des achats d'un client est un exemple de problème de régression.

Algorithmes destinés aux problèmes de classification binaire et multiclasse

AutoML utilise les algorithmes suivants pour les problèmes de classification binaire et multiclasse :

Classification CatBoost
Régression du filet élastique
Classification naïve bayésienne gaussienne
Régression Lasso
Classification LightGBM
Régression logistique
Classification Forêt d'arbres décisionnels
Classification XGBoost

Algorithmes destinés aux problèmes de régression

AutoML utilise les algorithmes suivants pour les problèmes de régression :

Régression CatBoost
Régression LightGBM
Régression linéaire
Régression Forêt d'arbres décisionnels
Régression SGD
Régression XGBoost

Différents types de modèles

Les types de modèles peuvent être divisés en modèles de régression, ensembles et autres types de modèles d'apprentissage automatique.

Modèles de régression

Les modèles de régression, ou modèles linéaires généraux, sont des modèles qui recherchent les tendances le long du domaine de chaque variable indépendamment les unes des autres. Tout comme l'équation algébrique y = mx+b, l'algorithme cherche à sélectionner un m et un b qui produiront la plus grande exactitude, en moyenne, pour chaque valeur x et y. Il s'agit généralement du même concept lorsqu'il existe plus d'une variable. La régression linéaire et la régression logistique sont des exemples de modèles de régression destinés aux problèmes de régression et aux problèmes de classification, respectivement.

Pour les problèmes de classification, la sortie du modèle de régression est la probabilité que l'échantillon est la classe positive. Cela signifie que y équivaut à la probabilité et non à une valeur réelle.

Les régressions sont performantes pour trouver les tendances linéaires dans des données, mais il existe parfois une relation qui n'est pas linéaire. Pour qu'une régression puisse bien s'adapter à un pattern non linéaire, il convient de transformer les données avant de former le modèle. La bonne compréhension des relations linéaires offre l'avantage suivant : les relations linéaires sont généralement optimales avec l'extrapolation. Le tableau indique les avantages et les inconvénients des modèles de régression.

Avantages	Inconvénients
Efficaces pour extrapoler Efficaces pour trouver les tendances linéaires de variables indépendantes Efficaces avec les données volumineuses provenant de la même population Faciles à comprendre	Peu efficaces pour exploiter les patterns entre les variables Peu adaptés aux tendances non linéaires Parfois trop simplistes

Modèles ensemblistes

Des ensembles sont des combinaisons de plusieurs modèles. On peut les comparer à un groupe de personnes aux antécédents différents qui votent et utilisent le vote moyen pour prendre une décision. La Forêt d'arbres décisionnels et XGBoost sont des exemples de modèles ensemblistes.

Les ensembles peuvent résoudre des problèmes de régression et des problèmes de classification. Ils sont efficaces pour trouver les relations non linéaires et la manière dont les interactions entre variables affectent la cible. Même si les ensembles sont efficaces pour apprendre les patterns de la plage de données sur laquelle ils sont formés, ils le sont peu pour prédire les valeurs en dehors de la plage qu'ils ont vue. Le tableau indique les avantages et les inconvénients des modèles ensemblistes.

Avantages	Inconvénients
Efficaces pour exploiter les patterns entre les variables Efficaces pour trouver les tendances non linéaires Efficaces avec les données volumineuses provenant de la même population	Peu efficaces pour extrapoler Pas très faciles à interpréter

Autres types de modèles

Les autres types de modèles incluent tous les autres types de modèles. Par exemple, les modèles Plus proches voisins et Classification naïve bayésienne gaussienne. Ces types de modèles tentent généralement de créer une nouvelle représentation spatiale des données, souvent en générant un type de métrique de distance qui mesure la différence entre deux enregistrements. Ils peuvent être efficaces pour traiter les tendances non linéaires, mais ils s'avèrent beaucoup plus chers, du point de vue du calcul, à mesure de l'augmentation de la taille de l'ensemble de données. Le tableau indique les avantages et les inconvénients des autres modèles.

Avantages	Inconvénients
Efficaces pour exploiter les patterns entre les variables Efficaces pour trouver les tendances non linéaires	Peu efficaces pour extrapoler Plus chers sur les ensembles de données plus volumineux, du point de vue du calcul

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici