Propriétés du tMapRStreamsInput pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tMapRStreamsInput s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tMapRStreamsInput Spark Streaming appartient à la famille Messaging.
Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Notez que le schéma de ce composant est en lecture seule. Il stocke les messages envoyés du producteur de messages. |
Output type |
Sélectionnez le type de données à envoyer au composant suivant. Généralement, il est recommandé d'utiliser le type String, car le tMapRStreamsInput peut automatiquement traduire les messages MapR Streams de type byte[] en chaînes de caractères, afin de les traiter par le Job. Cependant, si le format des messages MapR Streams est inconnu du tMapRStreamsInput, comme Protobuf, vous pouvez sélectionner byte[] et utiliser un composant Custom code, comme le tJavaRow, afin de désérialiser les messages en chaînes de caractères, afin que les autres composants du Job puissent traiter ces messages. |
Topic name |
Saisissez le nom du topic duquel le tMapRStreamsInput reçoit le flux des messages. Vous devez saisir le nom du flux auquel ce topic appartient. La syntaxe est la suivante : chemin_du_flux:nom_du_topic |
Starting from |
Sélectionnez le point de départ duquel les messages d'un topic sont consommés. Dans MapR Streams, le numéro d'ID séquentiel d'un message se nomme offset. Lorsqu'un nouveau groupe de consommateurs démarre, dans cette liste, vous pouvez sélectionner beginning pour commencer la consommation depuis le message le plus ancien du topic entier ou sélectionner latest pour attendre un nouveau message. Notez que le groupe de consommateurs prend en compte uniquement les messages dont l'offset a été commité comme point de départ. Chaque groupe de consommateurs possède son propre compteur pour se rappeler la position d'un message consommé. Pour cette raison, une fois qu'un groupe de consommateurs a commencé à consommer des messages d'un topic donné, un groupe de consommateurs reconnaît le message le plus récent en voyant simplement la position où son groupe a arrêté la consommation, plutôt que le topic complet. Partant de ce principe, les comportements suivants peuvent être attendus :
|
Set number of records per second to read from each Kafka partition |
Saisissez ce nombre entre guillemets doubles afin de limiter la taille de chaque batch à envoyer pour traitement. Par exemple, si vous saisissez 100 et que la valeur du batch définie dans l'onglet Spark configuration est 2 secondes, la taille de partition pour chaque batch est de 200 messages. Si vous laissez cette case décochée, le composant essaie de lire tous les messages disponibles en une seconde dans un batch avant d'envoyer ce dernier, ce qui peut conduire le Job à ne plus répondre s'il gère une grande quantité de messages. |
Advanced settings
Consumer properties |
Ajoutez les propriétés de consommation Kafka nécessaires pour personnaliser cette table. Pour plus d'informations concernant les propriétés de consommation à définir dans cette table, consultez la documentation de MapR Streams à l'adresse suivante MapR Streams Overview (uniquement en anglais) (en anglais). |
Custom encoding |
Il est possible de rencontrer des problèmes d'encodage lorsque vous traitez les données stockées. Dans ce cas, cochez cette case pour afficher la liste Encoding. Cet encodage est utilisé par le tMapRStreamsInput pour décoder les messages d'entrée. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. |
Spark Connection |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |
Prérequis |
La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |