Problèmes de classification
Les problèmes dans lesquels la colonne cible est une colonne catégorique sont dits problèmes de classification. Les problèmes de classification binaire ont deux catégories possibles, par exemple, Oui et Non, tandis que les problèmes de classification multiclasse en ont plus de deux.
Les exemples suivants expliquent les deux types de problèmes de classification. Ils abordent également certaines des considérations à prendre en compte lors de la définition d'une question d'apprentissage machine.
Exemple de classification binaire : Perte de clientèle
Dans cet exemple, une entreprise propose un modèle basé sur un abonnement. Des données sur l'ensemble des clients anciens et existants ont été collectées. Les clients ont été étiquetés comme ayant annulé leur abonnement (perte de clientèle) ou non.
Le tableau suivant montre les données collectées. Chaque ligne représente un client unique, et les colonnes représentent différentes caractéristiques décrivant ce client. La dernière colonne est la cible. Il s'agit d'une colonne binaire spécifiant si le client a annulé son abonnement (Oui ou Non).
Nous pourrions utiliser cet ensemble de données pour former un algorithme d'apprentissage machine à prédire si nous allons ou non perdre un client donné. Cependant, cette approche présente certains problèmes :
-
L'ensemble de données compare les nouveaux et les anciens clients, et il n'existe aucune information indiquant si les clients qui n'ont pas encore annulé leur abonnement le feront ultérieurement.
-
Les clients récemment acquis peuvent présenter des caractéristiques indiquant que nous risquons de les perdre (peut-être savons-nous que les hommes de vingt à trente ans qui n'achètent pas grand-chose le premier mois ont tendance à annuler leur abonnement peu après). Cependant, comme il s'agit de nouveaux clients qui n'ont pas encore annulé leur abonnement, nous formons l'algorithme d'apprentissage machine à associer ces caractéristiques à un client fidèle qui n'annulera pas son abonnement.
Évitez ces pièges en étant précis lors de la définition de la perte de clientèle et de la préparation d'un ensemble de données pour le problème. Savoir comment poser des questions métier de manière précise et appropriée afin qu'elles puissent être exploitées par l'apprentissage machine, c'est quelque chose qui vient avec la pratique. Il est utile d'étudier de bons et de mauvais exemples de le faire lorsque vous débutez avec l'apprentissage machine dans des applications métier. Si vous ne savez pas trop comment formuler vos questions métier pour qu'elles soient bien adaptées à l'apprentissage machine, prenez le temps de définir vos métriques métier. Cette stratégie s'avère souvent bénéfique.
Inclusion d'un facteur temps
Intégrons un facteur temps à la question. Nous pourrions étudier quels clients vont annuler leurs services au cours des six premiers mois. Par exemple, nous pourrions utiliser leur comportement au cours de leur premier mois en tant que clients pour prédire si nous allons les perdre au cours des six premiers mois. À présent, nous avons une manière précise de définir la perte de clientèle, en y intégrant un cadre temporel. Nous pourrions agréger un ensemble de données comme suit :
Ici, chaque ligne représente un client, mais, à présent, nous incluons uniquement les clients qui ont duré au moins six mois. Pour chacun d'entre eux, le nombre d'achats et le montant total des dépenses au cours du premier mois sont utilisés pour prédire si nous les avons perdus après six mois. Pour répondre à cette question, peu importe si nous les avons perdus après leurs six premiers mois. La colonne cible nous indique simplement s'ils ont annulé leur abonnement au cours de leurs six premiers mois.
À présent, nous avons un ensemble de données d'apprentissage dans lequel les lignes peuvent être comparées les unes aux autres. Une fois que nous formons un modèle sur cet ensemble de données, nous pouvons prendre n'importe quel nouveau client qui s'est abonné pendant au moins un mois et utiliser son comportement au cours de son premier mois et notre modèle formé pour prédire si nous le perdrons au cours de ses six premiers mois.
Exemple de classification multiclasse : Pétales d'iris
Dans cet exemple, nous avons des données sur un grand échantillon d'iris. Pour chaque fleur, nous avons enregistré la longueur et la largeur de ses pétales et de ses sépales ainsi que l'espèce d'iris à laquelle elle appartient. À l'avenir, lorsque nous trouverons un nouvel iris, nous aimerions pouvoir prédire l'espèce dont il s'agit en fonction de la longueur et de la largeur de ses sépales et de ses pétales.
Nous pouvons fournir les données collectées à un algorithme d'apprentissage machine adapté à une fonction des données historiques. Ladite fonction prédirait une espèce en fonction des valeurs des quatre autres variables. Le résultat est une catégorie provenant d'un ensemble discret de catégories.
Notez que nous travaillons en supposant que les données sur lesquelles nous basons nos prédictions futures ressembleront, d'un point de vue statistique, aux données sur lesquelles nous avons formé l'algorithme. S'il existe seulement trois espèces d'iris différentes dans l'ensemble de données d'apprentissage, nous ne pouvons utiliser cet algorithme formé que pour faire des prédictions sur les fleurs de ces espèces. Nous ne pouvons pas attendre d'un algorithme d'apprentissage machine qu'il fasse des prédictions sur des patterns qu'il n'a pas été formé à reconnaître à partir de l'ensemble de données d'apprentissage.