Propriétés du tHBaseConfiguration pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tHBaseConfiguration s'exécutant dans le framework de Jobs Spark Batch.
Le composant tHBaseConfiguration Spark Batch appartient aux familles Stockage et Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Property type |
Peut être Built-In ou Repository. Built-In : aucune propriété n'est stockée de manière centrale. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. |
Distribution |
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Parmi ces options, les suivantes nécessitent une configuration spécifique :
|
HBase version |
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. |
Zookeeper quorum |
Saisissez le nom ou l'URL du service Zookeeper utilisé pour coordonner les transactions entre votre Studio Talend et votre base de données. Notez que, lorsque vous configurez ZooKeeper, vous pouvez avoir besoin de configurer explicitement la propriété zookeeper.znode.parent pour définir le chemin vers le nœud Znode racine contenant tous les Znodes créés et utilisés par votre base de données. Cochez la case la case Set Zookeeper znode parent afin de définir cette propriété. |
Zookeeper client port |
Saisissez le numéro du port d'écoute client du service ZooKeeper que vous utilisez. |
Use kerberos authentication |
Si la base de données choisie utilise la sécurité Kerberos, cochez cette case puis saisissez le nom des principaux dans les champs HBase Master principal et HBase Region Server principal. Vous pouvez trouver cette information dans le fichier hbase-site.xml du cluster à utiliser. Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. |
HBase parameters |
Si vous devez utiliser une configuration personnalisée pour votre base de données, renseignez cette table avec la ou les propriétés à personnaliser. Lors de l'exécution, les propriétés personnalisées vont écraser les propriétés utilisées par le Studio Talend. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants. Déposez un tHBaseConfiguration avec le sous-Job relatif à HBase à exécuter au sein du même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Prérequis |
Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par votre base de données sont respectés. Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |
Spark Connection |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |