Propriétés du tNaiveBayesModel pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tNaiveBayesModel s'exécutant dans le framework de Jobs Spark Batch.
Le composant tNaiveBayesModel Spark Batch appartient à la famille Apprentissage automatique.
Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Basic settings
Define a storage configuration component |
Sélectionnez le composant de configuration à utiliser pour fournir les informations de configuration pour la connexion au système de fichiers cible, comme HDFS. Si vous laissez cette case décochée, le système de fichiers cible est le système local. Le composant de configuration à utiliser doit se trouver dans le même Job. Par exemple, si vous avez ajouté un composant tHDFSConfiguration dans votre Job, vous pouvez le sélectionner pour écrire le résultat dans un système HDFS donné. |
Model location |
|
Paramètres |
|
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. |
Model evaluation |
Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les jeux de données. Par conséquent, vous devez effectuer l'apprentissage du modèle de classification généré avec différentes valeurs de paramètres jusqu'à ce que vous obteniez le meilleur score d'exactitude (Accuracy, ACC) ainsi que le score optimal de précision, rappel et mesure-F1 pour chaque classe :
|
Scores |
Ces scores peuvent être écrits en sortie dans la console de la vue Run lorsque vous exécutez le Job, une fois ajouté le code suivant dans la vue Log4j de la boîte de dialogue Project Settings.
<!-- DataScience Logger --> <logger name= "org.talend.datascience.mllib" additivity= "false" > <level value= "INFO" /> <appender-ref ref= "CONSOLE" /> </logger> Ces scores sont écrits en sortie avec les autres informations Log4j de niveau INFO. Si vous souhaitez empêcher l'écriture en sortie d'informations non pertinentes, vous pouvez, par exemple, passer le niveau Log4j de ce type d'informations à WARN. Vous devez laisser le niveau de DataScience Logger à INFO. Si vous utilisez une solution Studio Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité Log4j. Pour plus d'informations concernant cette fonctionnalité, consultez Activer et configurer Log4j. Pour plus d'informations concernant les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais). |