Propriétés du tClassify pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tClassify s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tClassify Spark Streaming appartient à la famille Apprentissage automatique.
Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Notez que le schéma de ce composant est en lecture seule. Sa seule colonne LABEL est utilisée pour charger les noms de classes depuis le modèle de classification pour utilisation dans le processus de classification. |
Model on filesystem |
Sélectionnez cette option si le modèle à utiliser est stocké dans un système de fichiers. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration. Dans le champ HDFS folder qui s'affiche, saisissez l'URI du HDFS dans lequel le modèle est stocké. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé comme étape intermédiaire. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |