Propriétés du tMapRStreamsInputAvro pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tMapRStreamsInputAvro s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tMapRStreamsInputAvro Spark Streaming appartient à la famille Messaging.
La version Streaming de ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Notez que le schéma de ce composant est en lecture seule. Il stocke le corps du message envoyé du producteur du message. |
Démarrage de l''offset |
Sélectionnez le point de départ duquel les messages d'un topic sont consommés. Dans MapR Streams, le numéro d'ID séquentiel d'un message se nomme offset. Lorsqu'un nouveau groupe de consommateurs démarre, dans cette liste, vous pouvez sélectionner beginning pour commencer la consommation depuis le message le plus ancien du topic entier ou sélectionner latest pour attendre un nouveau message. Notez que le groupe de consommateurs prend en compte uniquement les messages dont l'offset a été commité comme point de départ. Chaque groupe de consommateurs possède son propre compteur pour se rappeler la position d'un message consommé. Pour cette raison, une fois qu'un groupe de consommateurs a commencé à consommer des messages d'un topic donné, un groupe de consommateurs reconnaît le message le plus récent en voyant simplement la position où son groupe a arrêté la consommation, plutôt que le topic complet. Partant de ce principe, les comportements suivants peuvent être attendus :
|
Topic name |
Saisissez le nom du topic duquel le tMapRStreamsInput reçoit le flux des messages. Vous devez saisir le nom du flux auquel ce topic appartient. La syntaxe est la suivante : chemin_du_flux:nom_du_topic |
Configurer le nombre d'enregistrements à lire par seconde de chaque partition Kafka |
Saisissez ce nombre entre guillemets doubles afin de limiter la taille de chaque lot à envoyer pour traitement. Par exemple, si vous saisissez 100 et que la valeur du batch définie dans l'onglet Spark configuration est 2 secondes, la taille de partition pour chaque batch est de 200 messages. Si vous laissez cette case décochée, le composant essaie de lire tous les messages disponibles en une seconde dans un batch avant d'envoyer ce dernier, ce qui peut conduire le Job à ne plus répondre s'il gère une grande quantité de messages. |
Advanced settings
Propriétés du consommateur |
Ajoutez les propriétés de consommation Kafka nécessaires pour personnaliser cette table. |
Utiliser le mode hiérarchique |
Cochez cette case pour mapper le schéma binaire (y compris le schéma hiérarchique) Avro au schéma plat défini dans l'éditeur de schéma du composant. Si le message Avro à traiter est plat, laissez cette case décochée. Une fois cochée, vous devez configurer le(s) paramètre(s) suivant(s) :
|
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. |
Spark Connection |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |
Prérequis |
La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |