Apprentissage du modèle d'arbre de décision

Cette section présente l'apprentissage de votre modèle d'arbre de décision et l'exécution du Job sur le cluster Hadoop.

Procédure

Ajoutez un tDecisionTreeModel dans l'espace de modélisation graphique.
Reliez le tModelEncoder au tDecisionTreeModel à l'aide d'un lien Row Main.
Double-cliquez sur le tDecisionTreeModel pour ouvrir sa vue Basic settings.
Dans Storage, cochez la case Define a storage configuration component et sélectionnez le stockage HDFS.
Choisissez le schéma créé précédemment.
Dans la colonne Features Column, sélectionnez MyFeatures.
Dans la colonne Label Column, sélectionnez MyLabels.
Dans Model location, cochez la case Save the model on file system (only for Spark 1.4 or higher) et saisissez le chemin vers le système de fichiers HDFS.
Dans cet exemple : /user/puccini/machinelearning/decisiontrees/marketing/decisiontree.model.
Laissez la valeur par défaut des autres paramètres.

Voici la configuration du Job.
Cliquez sur l'onglet Run et allez dans Spark Configuration.
Cochez la case Use local mode.

Si vous souhaitez exécuter le Job sur le cluster Hadoop :

Décochez la case Use local mode.
Cliquez sur Spark Configuration.

Ajoutez les propriétés avancées (Advanced properties) suivantes.

Propriété	Value (Valeur)
`"spark.driver.extraJavaOptions"`	`"-Dhdp.version=2.4.0.0-169"`
`"spark.yarn.am.extraJavaOptions"`	`"-Dhdp.version=2.4.0.0-169"`

La valeur est spécifique à la distribution et à la version de Hadoop. Ce tutoriel utilise Hortonworks 2.4 V3, la version 2.4.0.0-169. Votre entrée pour ce paramètre sera différente si vous n'utilisez pas Hortonworks 2.4 V3.

Important : Lorsque vous exécutez le code sur le cluster, il est crucial de vous assurer que l'accès est libre entre les deux systèmes. Dans cet exemple, assurez-vous que le cluster Hortonworks peut communiquer avec votre instance du Studio Talend. Cela est nécessaire car Spark, même s'il s'exécute sur le cluster, doit faire référence aux pilotes Spark fournis avec Talend. De plus, si vous déployez un Job Spark dans un environnement de production, il sera exécuté depuis un serveur de Jobs Talend (nœud de périphérie, edge node). Vous devez également vous assurer que la communication est libre entre lui et le cluster.

Pour plus d'informations concernant les ports nécessaires à chaque service, consultez la documentation Spark Security (en anglais).

Cliquez sur l'onglet Advanced settings.
Cochez la case Use specific JVM arguments.
Ajoutez un argument JVM indiquant la version d'Hadoop.
Le nouvel argument JVM est la chaîne de caractères ajoutée dans Value, dans la vue Advanced settings : "-Dhdp.version=2.4.0.0-169".
Cliquez sur l'onglet Basic Run, puis sur Run.
Lorsque l'exécution est terminée, un message vous indique sa réussite dans la console.
Naviguez jusqu'au répertoire HDFS, Ambari dans cet exemple, afin de vérifier que le modèle a été créé et persiste dans HDFS.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici