Propriétés du tHBaseInput Standard

Ces propriétés sont utilisées pour configurer le tHBaseInput s'exécutant dans le framework de Jobs Standard.

Le composant tHBaseInput Standard appartient aux familles Big Data et Bases de données NoSQL.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Propriétés	Description
Property type	Peut être Built-In ou Repository. Built-In : aucune propriété n'est stockée de manière centrale. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.
	Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings du composant. Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez Centraliser des métadonnées de base de données.
Use an existing connection	Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie.
HBase version	Sélectionnez la version HBase de la distribution Hadoop que vous utilisez.
Hadoop version	Sélectionnez la version Hadoop de la distribution que vous utilisez.
ZooKeeper quorum	Saisissez le nom ou l'URL du service ZooKeeper utilisé pour coordonner les transactions entre votre Studio Talend et votre base de données. Notez que, lorsque vous configurez ZooKeeper, vous pouvez avoir besoin de configurer explicitement la propriété zookeeper.znode.parent pour définir le chemin vers le nœud Znode racine contenant tous les Znodes créés et utilisés par votre base de données. Cochez la case la case Set ZooKeeper znode parent afin de définir cette propriété.
ZooKeeper client port	Saisissez le numéro du port d'écoute client du service ZooKeeper que vous utilisez.
Use kerberos authentication	Si la base de données choisie utilise la sécurité Kerberos, cochez cette case puis saisissez le nom des principaux dans les champs HBase Master principal et HBase Region Server principal. Vous pouvez trouver cette information dans le fichier hbase-site.xml du cluster à utiliser. Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.
Schema et Edit schema	Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé `line` lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles : View schema : sélectionnez cette option afin de voir uniquement le schéma. Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales. Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content. Built-in : le schéma est créé et conservé localement pour ce composant seulement. Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.
Specify namespace	Cochez cette case si vous souhaitez spécifier un espace de noms. Saisissez le nom de l'espace de noms à créer, dans le champ Namespace.
Table Name	Saisissez le nom de la table de la base de données de laquelle vous souhaitez extraire les colonnes.
Define a row selection	Cochez cette case et, dans les champs Start row et End row, saisissez les Row Keys correspondants afin de spécifier la plage de lignes que vous souhaitez faire extraire par le composant. À la différence des filtres que vous pouvez définir à l'aide de l'option Is by filter nécessitant le chargement de tous les enregistrements avant de pouvoir filtrer les lignes à utiliser, cette fonctionnalité vous permet de sélectionner directement les lignes qui vous intéressent.
Mapping	Renseignez cette table afin de mapper les colonnes de la table à utiliser avec les colonnes du schéma défini pour le flux de données à traiter.
Die on error	Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient. Décochez la case pour ignorer les lignes en erreur et terminer le traitement des lignes sans erreur. Lorsque les erreurs sont ignorées, vous pouvez récupérer les lignes en erreur en utilisant la connexion Row > Reject.

Advanced settings

Propriétés	Description
tStatCatcher Statistics	Cochez cette case pour collecter les données de log au niveau des composants.
Properties	Si vous devez utiliser une configuration personnalisée pour votre base de données, renseignez cette table avec la ou les propriétés à personnaliser. Lors de l'exécution, les propriétés personnalisées vont écraser les propriétés utilisées par le Studio Talend. Par exemple, vous devez définir la valeur de la propriété dfs.replication à 1 pour la configuration de base de données. Vous devez ajouter une ligne à cette table, à l'aide du bouton [+] et saisir le nom et la valeur de cette propriété dans la ligne. Note InformationsRemarque : Cette table n'est pas disponible quand vous utilisez une connexion existante en cochant la case Using an existing connection dans la vue Basic settings.
Is by filter	Cochez cette case pour utiliser des filtres HBase afin d'effectuer une sélection granulaire fine depuis votre base de données, comme une sélection de clés ou de valeurs, selon des expressions régulières. Une fois cette case cochée, la table Filter utilisée pour définir les conditions de filtre devient disponible. Cette fonctionnalité tire parti des filtres fournis par HBase et sujets aux contraintes présentées dans la documentation Apache HBase. Un niveau avancé de connaissances de HBase est requis pour que les utilisateurs et utilisatrices puissent utiliser pleinement ces filtres.
Logical operation	Sélectionnez l'opérateur à utiliser pour définir la relation logique entre les filtres. Les opérateurs disponibles sont : And : chaque condition de filtre définie doit être satisfaite. Elle représente la relation FilterList.Operator.MUST_PASS_ALL. Or : au moins une des conditions de filtre définie doit être satisfaite. Elle représente la relation FilterList.Operator.MUST_PASS_ONE.
Filter	Cliquez sur le bouton sous cette table pour ajouter autant de lignes que nécessaire. Chaque ligne représente un filtre. Les paramètres que vous devez configurer pour un filtre sont : Filter type : la liste déroulante présente les types de filtre prédéfinis par HBase. Sélectionnez le type de filtre à utiliser. Filter column : saisissez le nom de la colonne (qualifier) sur laquelle vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter. Filter family : saisissez la famille de colonne sur laquelle vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter. Filter operation : sélectionnez dans la liste déroulante l'opération à utiliser pour le filtre actif. Filter Value : saisissez le valeur sur laquelle utiliser l'opérateur sélectionné dans la liste Filter operation. Filter comparator type : sélectionnez le type de comparateur à combiner au filtre que vous utilisez. Selon le type de filtre (Filter type) que vous utilisez, certains paramètres, voire tous les paramètres sont obligatoires. Pour plus d'informations, consultez Filtres HBase.
Retrieve timestamps	Cochez cette case afin de charger les horodatages d'une colonne HBase dans le flux de données. Retrieve from an HBase column : sélectionnez la colonne HBase dont les modifications sont suivies, afin de récupérer ses horodatages. Write to a schema column : sélectionnez la colonne définie dans le schéma pour stocker les horodatages récupérés. Le type de la colonne doit être Long.

Variables globales

Variables	Description
Variables globales	NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier. ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Variables

Description

Variables globales

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Utilisation

Conseils d'utilisation	Description
Règle d'utilisation	Ce composant est composant de début d'un Job et requiert toujours un lien de sortie.
Prérequis	Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par votre base de données sont respectés. Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Conseils d'utilisation

Description

Règle d'utilisation

Ce composant est composant de début d'un Job et requiert toujours un lien de sortie.

Prérequis

Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par votre base de données sont respectés.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici