Propriétés du tBoundedStreamInput pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tBoundedStreamInput s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tBoundedStreamInput Spark Streaming appartient à la famille Technique.
Ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
mode |
Sélectionnez le mode que vous souhaitez utiliser pour générer le flux de données.
Dans les deux modes, les données fournies doivent utiliser les séparateurs définis dans les champs Row separator, Field Separator et Micro batch separator. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Ce composant est ajouté automatiquement à un scénario de test en cours de création, afin de fournir des données d'entrée. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |