Échantillonnage des données du référentiel d'apprentissage automatique
Cette section détaille un échantillon des données utilisées dans ce tutoriel.
Ce tutoriel n'a pas pour objectif d'apprendre la data science ou de détailler une analyse de données formelle, mais permet de voir un échantillon des données.
Pour plus d'informations concernant ce jeu de données, consultez UCI Machine Learning Repository (uniquement en anglais) (en anglais).
Il y a dix variables, neuf indépendantes, une dépendante :
- Indépendantes : age, jobtype, maritalstatus, educationlevel, indefault, hasmortgage, haspersonalloan, numcampaigncalls, priorcampaignoutcome
- Dépendante : conversion
Les variables indépendantes, aussi connues comme variables d'attributs, sont utilisées pour prédire un résultat. La variable dépendante, ou variable cible, est ce que vous souhaitez prédire. L'échantillonnage des données ci-dessus présente des tuples contenant des attributs et une variable cible, requis pour l'apprentissage de votre modèle d'arbre de décision. Ce type d'apprentissage est nommé apprentissage supervisé (uniquement en anglais), car les données contiennent un vecteur de sortie d'attributs et une valeur de sortie connue.
Les étapes suivantes utilisent les données d'apprentissage afin de construire un modèle d'arbre de décision à l'aide de la bibliothèque Spark Machine Learning Library (MLlib). En termes simples, l'objectif est de déterminer comment les attributs peuvent prédire la conversion de la variable cible à l'aide des données d'apprentissage, comprenant 1 546 points de données.
Vous devez également comprendre la forme et la distribution globale des données pour vous assurer que les hypothèses en aval sont aussi précises que possible. Voici des données de résumé statistique pour le jeu de données d'apprentissage utilisé dans cet article.
Les niveaux (yes, no, failure, (oui, non, échec), etc.) sont reportés pour chaque variable de catégorie. Pour les données numériques, les quartiles sont reportés. La conversion de la variable cible comprend deux niveaux, yes et no. Vous pouvez voir que "non" apparaît plus souvent que "yes". Ce déséquilibre conduit à des défis lors de la construction d'un modèle de classification, comme l'arbre de décision que vous construisez. En revanche, ces défis et ajustements sortent du périmètre de ce tutoriel et n'y seront pas traités. Pour plus d'informations, consultez Decision tree accuracy: effect of unbalanced data (en anglais).
Le modèle que vous construisez va prédire (conversion = no) comme étant vrai (true) ou faux (false). L'interprétation de (conversion = no) comme false dans le contexte du modèle est que (conversion = yes) est true.