Accéder au contenu principal Passer au contenu complémentaire

Définition de questions d'apprentissage machine

Il peut s'avérer difficile de transformer un cas d'utilisation en une question d'apprentissage machine spécifique exploitable. Pour éviter les pièges courants et générer un bon modèle prédictif, suivez un cadre structuré.

Le cadre explique comment définir une question d'apprentissage machine et collecter un ensemble de données bien structuré prêt à l'emploi. Pour plus d'informations sur la préparation d'un ensemble de données, voir Préparation de votre ensemble de données à l'apprentissage.

Le cadre comporte quatre parties :

  • Déclencheur d'événement

  • Cible

  • Caractéristiques

  • Point de prédiction

Déclencheur d'événement

Un déclencheur d'événement est une action ou un événement qui déclenche la création de nouvelles prédictions. Chaque déclencheur d'événement correspond à une seule ligne de données.

Cible

La cible est la valeur que vous tentez de prédire. Elle doit être spécifique tant dans la manière dont vous définissez sa valeur (le résultat) que du point de vue du cadre temporel en fonction duquel la valeur est déterminée (l'horizon). Les définitions du résultat et de l'horizon dépendent du contexte métier et des données disponibles. Assurez-vous que la cible correspond au contexte métier et pensez à ce que vous voulez faire des valeurs prédites.

La cible est représentée dans une seule colonne de l'ensemble de données que vous utilisez pour former les algorithmes d'apprentissage machine.

Caractéristiques

Les caractéristiques sont les autres colonnes de votre ensemble de données qui sont utilisées pour prédire une valeur cible. Il s'agit des variables qui, selon vous, influenceront la cible. Les algorithmes d'apprentissage machine utilisent les caractéristiques pour apprendre les patterns généraux lors de l'apprentissage et pour faire des prédictions pour de nouvelles lignes de données.

Les colonnes de caractéristiques constituent la majeure partie de l'ensemble de données d'apprentissage, chaque caractéristique étant représentée sous la forme d'une seule colonne. Les caractéristiques doivent être agrégées au niveau du déclencheur d'événement ou plus haut.

Les caractéristiques peuvent être fixes, à savoir, connues au moment du déclencheur d'événement ou avant ; ou dépendantes de la fenêtre, à savoir, les données sont collectées après le déclencheur d'événement, mais avant le point de prédiction.

Point de prédiction

Le point de prédiction est le moment désigné auquel vous arrêtez de collecter des données pour obtenir des caractéristiques et prédisez la cible pour chaque ligne. Le choix du point de prédiction est un compromis entre l'exactitude (en prédisant suffisamment tard pour collecter des données caractéristiques de qualité) et la capacité d'action (en prédisant suffisamment tôt pour pouvoir agir sur le résultat).

Le temps entre le déclencheur d'événement et le point de prédiction est la fenêtre d'accumulation de données. Il s'agit du temps utilisé pour collecter des données caractéristiques. Le temps entre le point de prédiction et l'horizon est la fenêtre d'action, à savoir, le temps mis à profit pour agir sur ce qui a été prédit. Le point de prédiction peut tomber à tout moment entre le déclencheur d'événement et l'horizon cible.

Exemples : Cadre structuré

Les exemples suivants montrent comment utiliser le cadre structuré dans différents cas d'utilisation. Pour un exemple d'application du cadre approfondi et détaillé, voir Application du cadre structuré : Exemple de la perte de clientèle.

Valeur de la durée de vie du client

  • Déclencheur d'événement : Un client passe sa première commande

  • Cible : Montant total des commandes au cours des trois premières années

    • Résultat numérique : Montant en dollars

    • L'horizon est basé sur la durée moyenne du cycle de vie du client

  • Caractéristiques : Source du lead, Montant de la première commande, Remise appliquée à la première commande (Oui ou Non), Statut d'expédition, Secteur géographique d'expédition, Nombre de produits de la première commande

  • Point de prédiction : Trois mois après la première commande

  • Question d'apprentissage machine : « Si nous faisons une prédiction trois mois après la première commande d'un client, quel sera le montant total des commandes en dollars sur les 33 prochains mois »

Nouvel achat de la part d'un client

  • Déclencheur d'événement : Un client passe une commande

  • Cible : Une autre commande est passée dans les six mois

    • Résultat binaire : Oui ou Non

    • L'horizon est déterminé par les données selon lesquelles 90 % des clients qui font un nouvel achat le font dans les six mois ou avant

  • Caractéristiques : Source du trafic, Nombre de commandes précédentes, Remise appliquée, Statut d'expédition, Secteur géographique d'expédition, Nombre de produits commandés, Ouverture de l'e-mail de notification d'expédition (Oui ou Non), Retour sur le site dans les 10 jours, Abonnement aux e-mails marketing (Oui ou Non)

  • Point de prédiction : Une semaine après la commande

  • Question d'apprentissage machine : « Si nous faisons une prédiction une semaine après qu'un client a passé une commande, passera-t-il une nouvelle commande dans les six mois »

Conversion de prospect

  • Déclencheur d'événement : Création d'un prospect

  • Cible : Conversion en client dans les 12 mois à partir de la création

    • Résultat binaire : Oui ou Non

    • Horizon basé sur la durée historique du cycle de vente

  • Caractéristiques : Source du lead, Industrie, Taille d'entreprise, Nombre de points de contact au cours des 30 premiers jours, Réunion programmée dans un délai de 30 jours (Oui ou Non), Numéro de téléphone exact (Oui ou Non)

  • Point de prédiction : 30 jours après la création du lead

  • Question d'apprentissage machine : « Si nous faisons une prédiction 30 jours après la création d'un lead, ce lead va-t-il se convertir en opportunité de conclusion de contrat au cours des 11 prochains mois »

Obtention de diplôme d'un étudiant

  • Déclencheur d'événement : Un étudiant est accepté

  • Cible : L'étudiant obtient son diplôme dans les six ans à compter du début du programme d'études

    • Résultat binaire : Oui ou Non

    • L'horizon est basé sur la durée historique du temps jusqu'à l'obtention du diplôme

  • Caractéristiques : Type de lycée, Moyenne au lycée, Note SAT/ACT, Scores aux examens de placement, Distance du lycée au campus universitaire, Niveau de bourse d'études, Niveau d'éducation des parents, Moyenne au premier semestre, Nombre de crédits au premier semestre

  • Point de prédiction : Fin du premier semestre au campus

  • Question d'apprentissage machine : « Si nous faisons une prédiction à la fin de son premier trimestre, un étudiant obtiendra-t-il son diplôme d'ici la fin de la sixième année »

Ventes par mois

  • Déclencheur d'événement : Premier jour du mois

  • Cible : Ventes en nombre d'articles au cours du mois

    • Résultat numérique : Nombre d'articles vendus

    • L'horizon est basé sur le mois civil

  • Caractéristiques : Type de produit, Nom du mois, Trimestre, Ventes le même mois l'an dernier, Ventes le même mois il y a deux ans, Ventes le mois passé, % de remise moyenne, Dépenses en marketing

  • Point de prédiction : Premier jour du mois

  • Question d'apprentissage machine : « Si nous faisons une prédiction le premier jour du mois, quel sera le nombre total d'articles vendus d'ici la fin du mois »

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !