Comprendre l'apprentissage machine
L'apprentissage machine est la pratique qui consiste à utiliser des algorithmes mathématiques pour identifier des patterns dans les données et les exploiter pour générer des prédictions.
Exemple simple : Prédiction de ventes
Pour mieux comprendre l'apprentissage machine, prenons un exemple simple qui prédit les ventes d'un produit au prochain trimestre. Nous savons peut-être que les ventes de ce produit dépendent des dépenses publicitaires associées. En regardant les données des trimestres précédents, nous voyons :
-
Les dépenses publicitaires (en milliers de dollars) pour la promotion du produit à la télévision.
-
Le montant des ventes (en millions de dollars).
Lorsque nous traçons les données, il apparaît évident que plus nous dépensons d'argent pour la promotion du produit à la télévision, plus il se vend.
Pour prédire les revenus des ventes au prochain trimestre, nous pouvons adapter une fonction aux données historiques :
Suivant le montant que nous prévoyons de dépenser en publicité à la télévision au prochain trimestre, nous pouvons évaluer la fonction à la valeur correspondant à ce montant. Imaginons que nous prévoyions de dépenser 225 000 $ en publicité télévisée le prochain trimestre. L'évaluation de la fonction à 225 donne 17.7, et nous pouvons projeter 17,7 millions de dollars de ventes au prochain trimestre.
Pour améliorer encore davantage l'exactitude de notre prédiction, nous pouvons essayer de trouver une fonction mieux adaptée aux données historiques, comme illustré sur la figure, et réaliser des prédictions à partir de cette fonction.
Dans cet exemple, nous ne nous sommes intéressés qu'aux dépenses publicitaires à la télévision. Nous pourrions également envisager d'autres facteurs qui influencent les ventes futures. Au lieu de considérer les ventes comme une fonction de dépenses publicitaires à la télévision indépendante, nous pourrions, par exemple, prendre les ventes comme une fonction des trois variables de dépenses publicitaires à la télévision, à la radio et dans les journaux. Nous pouvons utiliser autant de variables que nous le souhaitons, mais l'idée générale reste la même.
Concepts d'apprentissage machine
D'un point de vue des données, le problème d'apprentissage machine revient à compiler un tableau de données historiques. Nous avons une colonne du tableau représentant ce que nous voulons prédire, à savoir, dans notre exemple précédent, les ventes. Dans le langage de l'apprentissage machine, cette colonne est appelée la cible. Les autres colonnes sont appelées caractéristiques, et elles sont utilisées pour prédire la valeur de la colonne cible. Les caractéristiques sont des variables susceptibles de contribuer au résultat cible. Le principe de base derrière l'apprentissage machine est le suivant :
Étant donné un ensemble de données, nous recherchons une fonction adaptée à ces données afin de pouvoir prédire la valeur de la colonne cible en fonction des valeurs des colonnes de caractéristiques.
Plusieurs algorithmes d'apprentissage machine sophistiqués ont été développés pour résoudre différents types de problèmes d'apprentissage machine. Lorsque nous fournissons des données à un algorithme d'apprentissage machine et que nous le laissons en apprendre les patterns, nous disons que nous formons un algorithme d'apprentissage machine.
Les problèmes d'apprentissage machine sont soit des problèmes de régression, soit des problèmes de classification, suivant que la cible à prédire est une valeur numérique ou catégorique. Voir des exemples aux sections Problèmes de classification et Problèmes de régression.
Apprentissage machine automatisé
Avec l'apprentissage machine automatisé, les fonctions les mieux adaptées sont automatiquement trouvées lors de l'apprentissage sur les données historiques. Vous pouvez facilement charger un ensemble de données, sélectionner une cible et démarrer l'apprentissage en une seule pression sur un bouton.
Cependant, vous obtiendrez un résultat prédictif satisfaisant uniquement si votre point de départ est de bonne qualité. Une expérimentation d'apprentissage machine nécessite une question d'apprentissage machine bien définie et un ensemble de données conçu pour répondre à cette question. Pour bien commencer avec votre première expérimentation, procédez comme suit :
- Définissez une question d'apprentissage machine
Transformez votre cas d'utilisation en une question spécifique à l'aide d'un cadre structuré.
- Préparez votre ensemble de données d'apprentissage
Collectez des données de bonne qualité correspondant à votre cas d'utilisation.
- Créez une expérimentation d'apprentissage machine automatisé
Une fois les préparations terminées, vous pouvez commencer à expérimenter.