Propriétés du tHBaseOutput pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tHBaseOutput s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tHBaseOutput Spark Streaming appartient à la famille Bases de données.
Ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Storage configuration |
Sélectionnez le composant tHBaseConfiguration duquel le système Spark à utiliser lit les informations de configuration pour se connecter à HBase. |
Property type |
Peut être Built-In ou Repository. Built-In : aucune propriété n'est stockée de manière centrale. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. |
Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings du composant. Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez Centraliser des métadonnées de base de données. |
|
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
Table Name |
Saisissez le nom de la table HBase dans laquelle vous devez écrire des données. Cette table doit déjà exister. |
Row key column |
Sélectionnez la colonne utilisée comme colonne Row Key de la table HBase. Si nécessaire, cochez la case Store row key column to HBase column afin de faire de la colonne Row Key une colonne HBase appartenant à une famille de colonnes spécifique. |
Custom Row Key |
Cochez la case afin d'utiliser les clés de ligne personnalisées. Lorsque la case est cochée, le champ correspondant s'affiche. Saisissez ensuite la clé de ligne personnalisée pour indexer les lignes de la table HBase en cours de création. Par exemple, vous pouvez saisir "France"+Numeric.sequence("s1",1,1) afin de produire des séries de clé de lignes : France1, France2, France3, etc. |
Families |
Renseignez cette table afin de mapper les colonnes de la table à utiliser avec les colonnes du schéma défini pour le flux de données à traiter. La colonne Column de cette table est automatiquement renseignée une fois le schéma défini. Dans la colonne Family name, saisissez les familles de colonnes que vous souhaitez créer ou utiliser pour grouper les colonnes dans la colonne Column. Pour plus d'informations concernant les familles de colonnes, consultez la documentation Apache Column families (en anglais). |
Advanced settings
Use batch mode |
Cochez cette case pour activer le mode de traitement de données par lot. |
Batch size |
Spécifiez le nombre d'enregistrements à traiter dans chaque lot. Ce champ est disponible uniquement lorsque la case Use batch mode est cochée. |
Use local timezone for date | Cochez cette case pour utiliser la date locale de la machine sur laquelle votre Job est exécuté. Si vous ne cochez pas cette case, UTC est automatiquement utilisé pour formater les données de type Date. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. Le composant utilise un composant tHBaseConfiguration présent dans le même Job pour se connecter à HBase. Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |