Propriétés du tHBaseOutput Standard
Ces propriétés sont utilisées pour configurer le tHBaseOutput s'exécutant dans le framework de Jobs Standard.
Le composant tHBaseOutput Standard appartient aux familles Big Data et Bases de données NoSQL.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Property type |
Peut être Built-In ou Repository. Built-In : aucune propriété n'est stockée de manière centrale. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. |
Cliquez sur cette icône pour ouvrir l'assistant de configuration de connexion à la base de données et enregistrer les paramètres de connexion que vous avez définis dans la vue Basic settings du composant. Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide d'utilisation du Studio Talend. |
|
Use an existing connection |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Distribution |
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Parmi ces options, les suivantes nécessitent une configuration spécifique :
|
HBase version |
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. |
Hadoop version of the distribution |
Cette liste s'affiche uniquement lorsque vous avez sélectionné Custom dans la liste des distributions à connecter à un cluster n'étant pas officiellement supporté par le Studio. Dans cette situation, sélectionnez la version de Hadoop de ce cluster personnalisé, Hadoop 1 ou Hadoop 2. |
Zookeeper quorum |
Saisissez le nom ou l'URL du service Zookeeper utilisé pour coordonner les transactions entre votre Studio et votre base de données. Notez que, lorsque vous configurez Zookeeper, vous pouvez avoir besoin de configurer explicitement la propriété zookeeper.znode.parent pour définir le chemin vers le nœud znode racine contenant tous les znodes créés et utilisés par votre base de données. Cochez la case la case Set Zookeeper znode parent afin de définir cette propriété. |
Zookeeper client port |
Saisissez le numéro du port d'écoute client du service Zookeeper que vous utilisez. |
Use kerberos authentication |
Si la base de données choisie utilise la sécurité Kerberos, cochez cette case puis saisissez le nom des principaux dans les champs affichés. Vous pouvez trouver cette information dans le fichier hbase-site.xml du cluster à utiliser.
Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. |
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Lorsque le schéma à réutiliser contient des valeurs par défaut de type Integer ou Function, assurez-vous que ces valeurs par défaut ne sont pas entourées de guillemets. Si elles le sont, supprimez manuellement les guillemets. Pour plus d'informations, consultez la description relative à la récupération des schémas de tables dans le Guide d'utilisation du Studio Talend. |
Set table Namespace mappings |
Saisissez la chaîne de caractères à utiliser pour construire le mapping entre une table Apache HBase table et une table MapR. Pour plus d'informations concernant la syntaxe valide à utiliser, consultez http://doc.mapr.com/display/MapR40x/Mapping+Table+Namespace+Between+Apache+HBase+Tables+and+MapR+Tables (uniquement en anglais) (en anglais). |
Table Name |
Saisissez le nom de la table HBase que vous souhaitez créer. |
Action on table |
Sélectionnez l'action requise pour créer une table HBase. |
Custom Row Key |
Cochez la case afin d'utiliser les clés de ligne personnalisées. Lorsque la case est cochée, le champ correspondant s'affiche. Saisissez ensuite la clé de ligne personnalisée pour indexer les lignes de la table HBase en cours de création. Par exemple, vous pouvez saisir "France"+Numeric.sequence("s1",1,1) afin de produire des séries de clé de lignes : France1, France2, France3, etc. |
Families |
Renseignez cette table afin de mapper les colonnes de la table à utiliser avec les colonnes du schéma défini pour le flux de données à traiter. La colonne Column de cette table est automatiquement renseignée une fois le schéma défini. Dans la colonne Family name, saisissez les familles de colonnes que vous souhaitez créer ou utiliser pour grouper les colonnes dans la colonne Column. Pour plus d'informations concernant les familles de colonnes, consultez la documentation Apache Column families (en anglais). |
Custom timestamp column |
Sélectionnez une colonne Long de votre schéma afin de fournir les horodatages pour les colonnes HBase à créer ou à mettre à jour par le tHBaseOutput. |
Die on error |
Cette case est décochée par défaut, ce qui vous permet de terminer le traitement avec les lignes sans erreur, et d'ignorer les lignes en erreur. |
Advanced settings
Use batch mode |
Cochez cette case pour activer le mode de traitement de données par lot. |
Batch size |
Spécifiez le nombre d'enregistrements à traiter dans chaque lot. Ce champ est disponible uniquement lorsque la case Use batch mode est cochée. |
Propriétés |
Si vous devez utiliser une configuration personnalisée pour votre base de données, renseignez cette table avec la ou les propriétés à personnaliser. Lors de l'exécution, la ou les propriété(s) personnalisée(s) vont écraser les propriétés utilisées par le Studio Talend. Par exemple, vous devez définir la valeur de la propriété dfs.replication à 1 pour la configuration de base de données. Vous devez ajouter une ligne à cette table, à l'aide du bouton [+] et saisir le nom et la valeur de cette propriété dans la ligne. Note InformationsRemarque :
Cette table n'est pas disponible quand vous utilisez une connexion existante en cochant la case Using an existing connection dans la vue Basic settings. |
tStatCatcher Statistics |
Cochez cette case afin de collecter les données de log au niveau du composant. |
Family parameters |
Saisissez les noms et, si nécessaire, les options de performance personnalisées des familles de colonne que vous allez créer. Ces options sont toutes des attributs définis par le modèle de données HBase. Pour plus d'informations, consultez la documentation Apache HBase (en anglais). Note InformationsRemarque : Le paramètre Compression type vous permet de sélectionner le format de compression des données de sortie.
|
Global Variables
Variables globales |
NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier. ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend. |
Utilisation
Règle d'utilisation |
Ce composant est normalement utilisé en tant que composant de sortie d'un Job et nécessite un lien d'entrée. |
Prérequis |
Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par votre base de données sont respectés. La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |