Propriétés du tKuduOutput pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tKuduOutput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tKuduOutput Spark Batch appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Utiliser une configuration existante |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Server connection |
Cliquez sur le bouton [+] pour ajouter autant de lignes que de nœuds maître Kudu à utiliser, une ligne par master. Saisissez les emplacements et les ports d'écoute des nœuds maître du service Kudu à utiliser. Ce composant supporte uniquement le service Apache Kudu installé sur Cloudera. Pour des informations relatives à la compatibilité entre Apache Kudu et Cloudera, consultez la documentation Cloudera relative à ce sujet : Compatibility Matrix for Apache Kudu (en anglais). |
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.
|
Note InformationsRemarque : Le schéma d'un tableau Kudu doit déclarer une clé primaire, composée d'une ou plusieurs colonnes. Ces colonnes doivent être non-nullable, mais peuvent être du type booléen, float ou double.
Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Kudu table |
Saisissez le nom de la table à créer, modifier ou supprimer. |
Action on table |
Sélectionnez une opération à effectuer sur la table définie, vous pouvez effectuer l'une des opérations suivantes :
|
Action on data |
Sélectionnez une action à effectuer sur les données de la table définie.
|
Replicas |
Saisissez, sans guillemets doubles, le facteur de réplication de cette table, afin de créer des copies de votre table et de ses tablets (segments de tables contigus). Pour plus d'informations concernant les tablets Kudu et les politiques de réplication Kudu, consultez Distribution and Fault Tolerance (en anglais). |
Hash partitions |
Lorsque vous créez une table Kudu, il est recommandé de définir comment elle est partitionnée. Par défaut, votre table n'est pas partitionnée.
Lors de l'exécution, les lignes sont distribuées par la valeur de hachage dans l'un de ces buckets. Si vous laissez cette table Hash partitions vide, le partitionnement par hachage n'est pas appliqué durant la création de la table. Pour plus d'informations concernant le partitionnement par hachage dans Kudu, consultez Hash partitioning (en anglais). |
Range partitions |
Lorsque vous créez une table Kudu, il est recommandé de définir comment elle est partitionnée. Par défaut, votre table n'est pas partitionnée.
Lors de l'exécution, les lignes de ces colonnes sont distribuées en utilisant les valeurs des colonnes ajoutées à cette table Range partitions. Si vous laissez cette table vide, ce partitionnement n'est pas appliqué durant la création de la table. Pour plus d'informations concernant le partitionnement par hachage dans Kudu, consultez Range partitioning (en anglais). |
Die on error |
Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |