Introduction à l'apprentissage automatique - Arbres de décision
Vue d'ensemble
Ce tutoriel pratique présente les bases de développement d'une routine d'apprentissage automatique à l'aide de Talend et Spark. L'apprentissage d'arbre de décision sera utilisé pour la classification de données marketing bancaire réelles. Une fois ce tutoriel terminé, vous aurez acquis des connaissances pratiques suffisantes de la manière dont l'apprentissage automatique est intégré dans un workflow Talend et vous aurez des snippets de code réutilisables.
Les données source utilisées dans ce tutoriel ont été récupérées depuis le référentiel UCI Machine Learning Repository. Irvine, CA : University of California, Schools of Information and Computer Science. Ces données sont disponibles dans le domaine public et sont attribuées à : [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing Data Set
Prérequis
- Hortonworks 2.4 (HDP) est installé et configuré. Vous pouvez également utiliser Hortonworks sandbox, une machine virtuelle téléchargeable. Pour plus d'informations, consultez Create HDFS Metadata - Hortonworks.
- Vous avez des connaissances de base relatives aux technologies et outils de l'écosystème Hadoop.
- Vous avez des connaissances de base relatives à Hadoop Distributed File System (HDFS) et Spark.
- Vous avez des connaissances suffisantes pour travailler avec le Studio Talend et Talend Big Data Platform.
- Vous avez installé et configuré Talend Big Data Platform. Tout modèle de licence supérieur à cette plateforme convient également.