Problèmes de classification

Les problèmes dans lesquels la colonne cible est une colonne catégorique sont dits problèmes de classification. Les problèmes de classification binaire ont deux catégories possibles, par exemple, Oui et Non, tandis que les problèmes de classification multiclasse en ont plus de deux.

Les exemples suivants expliquent les deux types de problèmes de classification. Ils abordent également certaines des considérations à prendre en compte lors de la définition d'une question d'apprentissage automatique.

Exemple de classification binaire : Perte de clientèle

Dans cet exemple, une entreprise propose un modèle basé sur un abonnement. Des données sur l'ensemble des clients anciens et existants ont été collectées. Les clients ont été étiquetés comme ayant annulé leur abonnement (perte de clientèle) ou non.

Le tableau suivant montre les données collectées. Chaque ligne représente un client unique, et les colonnes représentent différentes caractéristiques décrivant ce client. La dernière colonne est la cible. Il s'agit d'une colonne binaire spécifiant si le client a annulé son abonnement (Oui ou Non).

Tableau contenant un échantillon de données d'apprentissage. — Échantillon de données collectées

Nous pourrions utiliser ce jeu de données pour former un algorithme d'apprentissage automatique à prédire si nous allons ou non perdre un client donné. Cependant, cette approche présente certains problèmes :

Le jeu de données compare les nouveaux et les anciens clients, et il n'existe aucune information indiquant si les clients qui n'ont pas encore annulé leur abonnement le feront ultérieurement.
Les clients récemment acquis peuvent présenter des caractéristiques indiquant que nous risquons de les perdre (peut-être savons-nous que les hommes de vingt à trente ans qui n'achètent pas grand-chose le premier mois ont tendance à annuler leur abonnement peu après). Cependant, comme il s'agit de nouveaux clients qui n'ont pas encore annulé leur abonnement, nous formons l'algorithme d'apprentissage automatique à associer ces caractéristiques à un client fidèle qui n'annulera pas son abonnement.

Évitez ces pièges en étant précis lors de la définition de la perte de clientèle et de la préparation d'un jeu de données pour le problème. Savoir comment poser des questions métier de manière précise et appropriée afin qu'elles puissent être exploitées par l'apprentissage automatique, c'est quelque chose qui vient avec la pratique. Il est utile d'étudier de bons et de mauvais exemples de le faire lorsque vous débutez avec l'apprentissage automatique dans des applications métier. Si vous ne savez pas trop comment formuler vos questions métier pour qu'elles soient bien adaptées à l'apprentissage automatique, prenez le temps de définir vos métriques métier. Cette stratégie s'avère souvent bénéfique.

Inclusion d'un facteur temps

Intégrons un facteur temps à la question. Nous pourrions étudier quels clients vont annuler leurs services au cours des six premiers mois. Par exemple, nous pourrions utiliser leur comportement au cours de leur premier mois en tant que clients pour prédire si nous allons les perdre au cours des six premiers mois. À présent, nous avons une manière précise de définir la perte de clientèle, en y intégrant un cadre temporel. Nous pourrions agréger un jeu de données comme suit :

Ici, chaque ligne représente un client, mais, à présent, nous incluons uniquement les clients qui ont duré au moins six mois. Pour chacun d'entre eux, le nombre d'achats et le montant total des dépenses au cours du premier mois sont utilisés pour prédire si nous les avons perdus après six mois. Pour répondre à cette question, peu importe si nous les avons perdus après leurs six premiers mois. La colonne cible nous indique simplement s'ils ont annulé leur abonnement au cours de leurs six premiers mois.

À présent, nous avons un jeu de données d'apprentissage dans lequel les lignes peuvent être comparées les unes aux autres. Une fois que nous formons un modèle sur ce jeu de données, nous pouvons prendre n'importe quel nouveau client qui s'est abonné pendant au moins un mois et utiliser son comportement au cours de son premier mois et notre modèle formé pour prédire si nous le perdrons au cours de ses six premiers mois.

Exemple de classification multiclasse : Pétales d'iris

Dans cet exemple, nous avons des données sur un grand échantillon d'iris. Pour chaque fleur, nous avons enregistré la longueur et la largeur de ses pétales et de ses sépales ainsi que l'espèce d'iris à laquelle elle appartient. À l'avenir, lorsque nous trouverons un nouvel iris, nous aimerions pouvoir prédire l'espèce dont il s'agit en fonction de la longueur et de la largeur de ses sépales et de ses pétales.

Nous pouvons fournir les données collectées à un algorithme d'apprentissage automatique adapté à une fonction des données historiques. Ladite fonction prédirait une espèce en fonction des valeurs des quatre autres variables. Le résultat est une catégorie provenant d'un ensemble discret de catégories.

Notez que nous travaillons en supposant que les données sur lesquelles nous basons nos prédictions futures ressembleront, d'un point de vue statistique, aux données sur lesquelles nous avons formé l'algorithme. S'il existe seulement trois espèces d'iris différentes dans le jeu de données d'apprentissage, nous ne pouvons utiliser cet algorithme formé que pour faire des prédictions sur les fleurs de ces espèces. Nous ne pouvons pas attendre d'un algorithme d'apprentissage automatique qu'il fasse des prédictions sur des patterns qu'il n'a pas été formé à reconnaître à partir du jeu de données d'apprentissage.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici