Accéder au contenu principal Passer au contenu complémentaire

Problèmes de régression

Les problèmes de régression sont des problèmes d'apprentissage automatique avec une colonne cible numérique. L'exemple suivant vous montre comment cadrer une question métier de manière précise, puis comment agréger un jeu de données d'apprentissage dans lequel toutes les caractéristiques sont sur un pied d'égalité. Cela offre une bonne base pour générer un modèle de régression prédictif.

Exemple de régression : Valeur de la durée de vie des clients

Commençons par supposer qu'un modèle d'apprentissage automatique formé sur des clients historiques va apprendre à prédire la valeur de la durée de vie des clients via plusieurs caractéristiques ayant une influence sur cette prédiction. Nous collectons un jeu de données contenant des informations historiques sur tous les clients passés et présents. Il existe une ligne pour chaque client et les colonnes représentent des caractéristiques décrivant le client : ID du client, sexe, âge, date à laquelle il est devenu client, code postal, nombre d'achats effectués et montant total dépensé.

Échantillon de données collectées

Tableau contenant un échantillon de données d'apprentissage.

Nous pourrions définir la valeur de la durée de vie du client comme le montant total dépensé, fournir le jeu de données à un algorithme d'apprentissage automatique et lui apprendre à prédire le montant total dépensé. À mesure de l'acquisition de nouveaux clients dans le futur, nous pourrions utiliser l'algorithme formé pour prédire la valeur monétaire qu'ils apporteront au cours de leur vie en tant que clients. Cependant, cette approche présente plusieurs problèmes :

  • Le jeu de données risque d'inclure des personnes qui ont été clients pendant un jour, un mois ou une année. Le montant total dépensé ne reflète pas le montant que dépensera un client, mais le total qu'il a dépensé jusqu'à présent.

  • Un client dont le compte a un jour peut présenter les caractéristiques d'un client très rentable. Mais, comme il n'est devenu client qu'hier, il n'a fait qu'un achat et n'a pas dépensé beaucoup d'argent. En incluant ce client dans le jeu de données d'apprentissage, nous apprenons de manière erronée à l'algorithme d'apprentissage automatique qu'il fait partie d'un type de client qui ne rapporte pas beaucoup d'argent.

  • Il se peut que nous ayons un nouveau client qui, au cours de son premier mois en tant que client, a commandé des produits trois fois par semaine, pour un total de 12 achats. Une autre personne, cliente depuis un an, peut avoir passé une commande par mois et dépensé le même montant. L'algorithme d'apprentissage automatique placerait ces deux clients sur un pied d'égalité en termes de valeur de durée de vie en tant que client, alors qu'en réalité, le client vieux d'un mois peut rapporter beaucoup plus à long terme.

Pour éviter ces pièges, nous devons être précis quant à la manière de définir la valeur de la durée de vie d'un client et de préparer un jeu de données pour résoudre le problème. Une bonne méthode, pour y parvenir, consiste à inclure un facteur temps dans la définition du problème.

Inclusion d'un facteur temps

Pour inclure un facteur temps, commençons par définir la valeur de la première année comme le montant total dépensé par un client au cours de sa première année en tant que client. Nous pourrions ensuite utiliser le comportement d'un client au cours de ses trois premiers mois comme caractéristiques pour prédire le montant total dépensé au cours de sa première année. La valeur de la première année est une définition précise d'une mesure d'intérêt qui intègre un cadre temporel. L'avantage de créer une métrique aussi précise réside dans le fait que cela place tous les exemples de notre jeu de données d'apprentissage sur un pied d'égalité.

Notez qu'étant donné que nous analysons le montant total dépensé par les personnes au cours de leur première année en tant que clients, nous devons limiter le jeu de données d'apprentissage aux clients qui le sont depuis au moins un an. Nous pourrions préparer un jeu de données comme suit :

Jeu de données incluant un facteur temps

Tableau contenant un échantillon de données d'apprentissage.

Ici, chaque ligne représente une personne qui est cliente depuis au moins un an. Les colonnes incluent des caractéristiques qui décrivent le client au moment où il est devenu client ainsi que des caractéristiques qui représentent l'activité du client au cours du cadre temporel sélectionné.

L'activité est mesurée en fonction du nombre d'achats effectués au cours des trois premiers mois et du montant total dépensé au cours des trois premiers mois. La colonne cible représente le montant total dépensé au cours de la première année. Il s'agit de la valeur de la première année que nous allons former l'algorithme d'apprentissage automatique à prédire.

Notez la manière dont nous posons maintenant une question très précise définie dans un cadre temporel : « Prédire l'argent qu'un client rapportera au cours de sa première année, en fonction de son comportement au cours de ses trois premiers mois. »

Comparaison des problèmes de régression et de série temporelle

Les problèmes de régression sont similaires aux problèmes de série temporelle, tant au niveau de la variable cible que des cas d'utilisation réels qu'ils impliquent. Il existe également plusieurs différences entre ces deux types de problèmes.

Pour plus d'informations sur les problèmes de série temporelle, consultez Problèmes de série temporelle.

Similitudes

  • Les deux impliquent une colonne cible numérique.

  • Les deux sont couramment utilisés dans les cas d'utilisation financiers impliquant des projections commerciales et monétaires.

Différences

  • Les problèmes de série temporelle supportent les cibles groupées, tandis que les problèmes de régression ne le font pas (consultez Composants d'un problème de série temporelle). Les scénarios groupés peuvent continuer à être traités pour les problèmes de régression en effectuant l'apprentissage de plusieurs modèles différents, au détriment de l'apprentissage global entre les groupes.

  • Les problèmes de série temporelle supportent les scénarios dans lesquels vous connaissez certaines variables de caractéristiques à l'avance—par exemple, les prévisions météorologiques, les remises promotionnelles planifiées et si les dates tombent des jours de semaine, des week-ends et des jours fériés. Ces variables de caractéristiques sont connues sous le nom de Caractéristiques futures.

  • Pour les problèmes de série temporelle, les données doivent être indexées par date ou par date et heure sur un intervalle de temps fixe. De plus, un contenu de données différent est attendu et généré lors de l'apprentissage et des prédictions (consultez Préparation d'un jeu de données d'apprentissage et Préparation d'un jeu de données à appliquer).

  • Dans les problèmes de série temporelle, les valeurs prédites correspondent explicitement à des dates et des heures spécifiques. Dans les problèmes de régression, les valeurs prédites peuvent ou non correspondre à des dates et des heures spécifiques, mais, si c'est le cas, cette association est implicite au lieu d'être explicitement indiquée dans la sortie.

  • Des algorithmes différents sont utilisés (consultez Familiarisation avec les algorithmes d'un modèle).

SUPPORTS D APPRENTISSAGE ASSOCIÉS

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.