Propriétés du tKuduInput pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tKuduInput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tKuduInput Spark Batch appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Utiliser une configuration existante |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Server connection |
Cliquez sur le bouton [+] pour ajouter autant de lignes que de nœuds maître Kudu à utiliser, une ligne par master. Saisissez les emplacements et les ports d'écoute des nœuds maître du service Kudu à utiliser. Ce composant supporte uniquement le service Apache Kudu installé sur Cloudera. Pour des informations relatives à la compatibilité entre Apache Kudu et Cloudera, consultez la documentation Cloudera relative à ce sujet : Compatibility Matrix for Apache Kudu (en anglais). |
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.
|
Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Kudu table |
Spécifiez le nom de la table de laquelle lire les données. |
Query mode |
Sélectionnez le mode à utiliser pour lire les données dans la table :
|
Advanced settings
Limit |
Saisissez, sans guillemet double, le nombre de lignes à afficher après le scan ou la requête de votre table Kudu. Ce nombre ne change pas le nombre de lignes à scanner ou interroger. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |