Accéder au contenu principal Passer au contenu complémentaire

Préparation de votre ensemble de données à l'apprentissage

Vous formez un ensemble de données à répondre à une question d'apprentissage machine. L'ensemble de données d'apprentissage inclut une colonne pour chaque caractéristique ainsi qu'une colonne contenant la cible. Les algorithmes d'apprentissage machine apprennent les patterns généraux de ces lignes de données pour générer un modèle capable de prédire la cible.

Pour préparer l'ensemble de données à l'apprentissage machine, vous devez comprendre vos données et collecter les points de données nécessaires. Vous devrez peut-être également transformer certaines des données et supprimer des données qui ne sont pas intéressantes pour votre cas d'utilisation.

Quelles données collecter ?

Définissez votre question d'apprentissage machine avec précision et décidez exactement de ce que vous devez agréger pour aborder cette question :

  • Si vous souhaitez savoir quels clients vous allez perdre, vous devez agréger un ensemble de données dans lequel chaque ligne représente un client et chaque colonne de caractéristique représente une caractéristique décrivant ce client, et la colonne cible doit indiquer si ce client est parti pendant un période donnée.

  • Si vous souhaitez prédire les ventes d'un mois et d'un secteur géographique donnés, vous devez agréger un ensemble de données dans lequel chaque ligne représente un mois donné pour un secteur géographique donné et chaque colonne de caractéristique représente une caractéristique décrivant les activités commerciales de ce mois dans ce secteur géographique, et la colonne cible doit correspondre aux revenus des ventes pour cette région au cours de ce mois.

Essayez de voir ce qui pourrait influencer la cible et s'il est possible de collecter ces données. N'oubliez pas que les algorithmes prédictifs peuvent uniquement identifier les patterns susceptibles d'être trouvés. Vous devrez peut-être collecter ou créer des caractéristiques supplémentaires pour en extraire des informations supplémentaires.

Vous devez également déterminer la quantité de données à accumuler avant de pouvoir prédire quelque chose avec exactitude. Combien de temps faut-il avant que l'événement devienne représentatif ? Prenez les exemples suivants :

  • Les clients doivent avoir été membres pendant 60 jours avant que vous puissiez prédire s'ils vont se désabonner d'ici le 90e jour.

  • Le coût des déclarations de sinistre ne sera pas connu pendant quelques mois ; par conséquent, vous pouvez exclure les déclarations de moins de six mois.

Faites la distinction entre les données qui varient en fonction du temps et les autres. Pour les données qui varient en fonction du temps, ces données sont-elles horodatées de sorte à être correctement agrégées ?

Les données seront-elles disponibles au moment de la prédiction ?

Assurez-vous que toutes les caractéristiques que vous incluez dans l'ensemble de données d'apprentissage seront disponibles également lors des prédictions futures. On commet souvent l'erreur de former le modèle sur des caractéristiques disponibles dans les données historiques, mais pas au moment où la prédiction est faite dans le futur. Lors de la réalisation de prédictions sur de nouvelles données, l'algorithme d'apprentissage machine doit avoir des valeurs pour toutes les caractéristiques qui étaient disponibles dans l'ensemble de données d'apprentissage.

Est-il préférable d'avoir plus de données ?

Taille d'échantillon

Un volume de données plus important a tendance à produire des modèles plus fiables. Tous les points de données pertinents supplémentaires faciliteront les choses, qu'il s'agisse de nouvelles observations ou d'observations historiques.

Nombre de caractéristiques

On peut être tenté d'inclure toutes les variables possibles dans le modèle, quelle que soit leur pertinence par rapport au résultat ciblé. En règle générale, plus c'est simple, mieux c'est. Il est généralement préférable d'utiliser un plus petit nombre de caractéristiques dans le modèle.

Plus il y a de caractéristiques, plus le risque est grand de passer à côté de la vraie relation sous-jacente que vous souhaitez découvrir. Le modèle prédictif peut utiliser toutes les caractéristiques pour aboutir à une série de règles compliquées performantes sur les données utilisées pour former le modèle. Mais il se peut que la cible prédite ne soit en fait influencée que par une ou deux caractéristiques. Il est possible que le modèle ne soit pas efficace pour généraliser à des données en dehors de celles utilisées lors de l'apprentissage, ce qui entraînerait de mauvaises performances prédictives en cas d'application à de nouvelles données.

Surapprentissage

Un surapprentissage se produit quand un modèle est trop complexe et qu'à cause de cela il n'est pas fiable pour prédire de nouvelles données. Un surapprentissage a tendance à se produire lorsque les caractéristiques sont trop nombreuses par rapport au nombre de points de données disponibles. Par exemple, il se peut que vous ayez seulement 50 lignes de données et 100 colonnes de caractéristiques dans l'ensemble de données.

Vos données d'apprentissage sont-elles pertinentes ?

Un algorithme d'apprentissage machine recherche des patterns dans les données que vous lui fournissez et utilise ces patterns pour effectuer des prédictions sur les données dans le futur. Lorsque vous effectuez des prédictions sur de nouvelles données, vous supposez que ces données sont similaires aux données d'apprentissage. C'est pourquoi il est important que l'ensemble de données d'apprentissage ressemble, d'un point de vue statistique, aux données sur lesquelles vous réalisez des prédictions.

Si le marché ou l'activité a considérablement changé par rapport à ce que décrit votre ensemble de données d'apprentissage, c'est probablement que vous utilisez un ensemble de données dépassé qui entraînera des prédictions inexactes. Vous devrez peut-être créer un nouvel ensemble de données d'apprentissage et utiliser uniquement les données collectées après les changements.

Prenez l'exemple sur les prédictions des ventes à la section Comprendre l'apprentissage machine. Imaginons que nous ayons fourni à l'algorithme des données représentant les dépenses publicitaires à la télévision, à la radio et dans les journaux, ainsi que les revenus des ventes des trimestres historiques. Or, les données ont été collectées dans les années 1980. De nos jours, nous ne faisons plus la promotion de ce produit à la radio et sa promotion se fait presque exclusivement en ligne. Notre algorithme formé serait peu fiable à prédire les ventes du trimestre actuel, car les données d'apprentissage ne sont pas représentatives des activités actuelles.

Exploration des données

Utilisez vos connaissances métier pour comprendre et valider les données. Si les données ne sont pas alignées sur vos hypothèses, cela indique-t-il des problèmes dans les données ou cela veut-il dire que vos hypothèses sont erronées ?

Suppression des caractéristiques peu fiables

Pensez à exclure des colonnes de l'ensemble de données dans les cas suivants :

  • Une valeur est très concentrée (faible cardinalité). Par exemple, une colonne avec les valeurs « rouge », « vert » et « bleu » dans laquelle 90 % des valeurs sont « rouge ».

  • Il existe un grand nombre de valeurs uniques (forte cardinalité).

  • La plupart des valeurs sont nulles.

Gestion des caractéristiques corrélées

Supprimez les caractéristiques redondantes telles que les caractéristiques fortement corrélées qui fournissent les mêmes informations ou des informations très similaires. Pensez à sélectionner une seule caractéristique de groupes qui semblent capturer les mêmes comportements dans les données. Essayez de voir si une caractéristique en dirige une autre.

Remplacement des valeurs nulles

Explorez vos données pour voir s'il manque des valeurs dans les points de données clés comme la cible ou des caractéristiques essentielles. Pour utiliser les valeurs d'une colonne parsemée, vous pouvez remplacer les valeurs nulles par « autre » ou « inconnu ». Ou vous devrez peut-être réévaluer la collecte de données.

Plage cible

Examinez la répartition des données. Si la répartition de vos données cible est trop importante par rapport à la taille d'échantillon, il peut s'avérer difficile d'identifier un quelconque pattern dans vos données.

Quelle est la plage des valeurs de données ? La prédiction de valeurs de données en dehors de la plage peut s'avérer difficile. En savoir plus à la section Extrapolation et interpolation.

La répartition présente-t-elle des anomalies ? Les données faussées, les données d'extrémité et les données aux formes multi-modales peuvent nécessiter des transformations de données supplémentaires ou une ingénierie des caractéristiques plus poussée. Essayez de regrouper les catégories de faible volume et arrondissez ou supprimez les extrémités des caractéristiques numériques.

Suppression des valeurs hors norme

Pensez à supprimer les observations avec des valeurs hors norme des colonnes de caractéristiques. Les valeurs hors norme peuvent empêcher un algorithme de discerner les patterns généraux dans les données. Il peut être préférable d'analyser un sous-ensemble plus restreint de données moins réparties dans la colonne cible.

Regroupement de données

Vous pouvez améliorer les résultats en divisant les données en différents ensembles de données et en utilisant ces derniers pour former des modèles distincts. Basez le regroupement des données sur une ou plusieurs caractéristiques.

Fuite de données

Une fuite de données signifie que les données utilisées pour former un algorithme d'apprentissage machine incluent les informations que vous tentez de prédire.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !