Problèmes de régression
Les problèmes de régression sont des problèmes d'apprentissage machine avec une colonne cible numérique. L'exemple suivant vous montre comment cadrer une question métier de manière précise, puis comment agréger un ensemble de données d'apprentissage dans lequel toutes les caractéristiques sont sur un pied d'égalité. Cela offre une bonne base pour générer un modèle de régression prédictif.
Exemple de régression : Valeur de la durée de vie du client
Commençons par supposer qu'un modèle d'apprentissage machine formé sur des clients historiques va apprendre à prédire la valeur de la durée de vie des clients via plusieurs caractéristiques ayant une influence sur cette prédiction. Nous collectons un ensemble de données contenant des informations historiques sur tous les clients passés et présents. Il existe une ligne pour chaque client et les colonnes représentent des caractéristiques décrivant le client : ID du client, sexe, âge, date à laquelle il est devenu client, code postal, nombre d'achats effectués et montant total dépensé.
Nous pourrions définir la valeur de la durée de vie du client comme le montant total dépensé, fournir l'ensemble de données à un algorithme d'apprentissage machine et lui apprendre à prédire le montant total dépensé. À mesure de l'acquisition de nouveaux clients dans le futur, nous pourrions utiliser l'algorithme formé pour prédire la valeur monétaire qu'ils apporteront au cours de leur vie en tant que clients. Cependant, cette approche présente plusieurs problèmes :
-
L'ensemble de données risque d'inclure des personnes qui ont été clients pendant un jour, un mois ou une année. Le montant total dépensé ne reflète pas le montant que dépensera un client, mais le total qu'il a dépensé jusqu'à présent.
-
Un client dont le compte a un jour peut présenter les caractéristiques d'un client très rentable. Mais, comme il n'est devenu client qu'hier, il n'a fait qu'un achat et n'a pas dépensé beaucoup d'argent. En incluant ce client dans l'ensemble de données d'apprentissage, nous apprenons de manière erronée à l'algorithme d'apprentissage machine qu'il fait partie d'un type de client qui ne rapporte pas beaucoup d'argent.
-
Il se peut que nous ayons un nouveau client qui, au cours de son premier mois en tant que client, a commandé des produits trois fois par semaine, pour un total de 12 achats. Une autre personne, cliente depuis un an, peut avoir passé une commande par mois et dépensé le même montant. L'algorithme d'apprentissage machine placerait ces deux clients sur un pied d'égalité en termes de valeur de durée de vie en tant que client, alors qu'en réalité, le client vieux d'un mois peut rapporter beaucoup plus à long terme.
Pour éviter ces pièges, nous devons être précis quant à la manière de définir la valeur de la durée de vie d'un client et de préparer un ensemble de données pour résoudre le problème. Une bonne méthode, pour y parvenir, consiste à inclure un facteur temps dans la définition du problème.
Inclusion d'un facteur temps
Pour inclure un facteur temps, commençons par définir la valeur de la première année comme le montant total dépensé par un client au cours de sa première année en tant que client. Nous pourrions ensuite utiliser le comportement d'un client au cours de ses trois premiers mois comme caractéristiques pour prédire le montant total dépensé au cours de sa première année. La valeur de la première année est une définition précise d'une mesure d'intérêt qui intègre un cadre temporel. L'avantage de créer une métrique aussi précise réside dans le fait que cela place tous les exemples de notre ensemble de données d'apprentissage sur un pied d'égalité.
Notez qu'étant donné que nous analysons le montant total dépensé par les personnes au cours de leur première année en tant que clients, nous devons limiter l'ensemble de données d'apprentissage aux clients qui le sont depuis au moins un an. Nous pourrions préparer un ensemble de données comme suit :
Ici, chaque ligne représente une personne qui est cliente depuis au moins un an. Les colonnes incluent des caractéristiques qui décrivent le client au moment où il est devenu client ainsi que des caractéristiques qui représentent l'activité du client au cours du cadre temporel sélectionné.
L'activité est mesurée en fonction du nombre d'achats effectués au cours des trois premiers mois et du montant total dépensé au cours des trois premiers mois. La colonne cible représente le montant total dépensé au cours de la première année. Il s'agit de la valeur de la première année que nous allons former l'algorithme d'apprentissage machine à prédire.
Notez comment nous posons à présent une question très précise, définie dans un cadre temporel : « Prédire l'argent qu'un client rapportera au cours de sa première année, en fonction de son comportement au cours de ses trois premiers mois. »