Propriétés du tHiveConfiguration pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tHiveConfiguration s'exécutant dans le framework de Jobs Spark Batch.
Le composant tHiveConfiguration Spark Batch appartient à la famille Stockage.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Type de propriété |
Sélectionnez la manière de configurer les informations de connexion.
|
Distribution et Version |
Sélectionnez la distribution Hadoop que vous utilisez pour Hive. Notez que la version de Hive requise par Spark est 0.13+. Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. |
Hive thrift metastore |
Saisissez l'emplacement du Metastore du système Hive à utiliser en spécifiant le nom de son hôte (Host) et le numéro de son Port d'écoute. Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,). |
Use Kerberos authentication |
Si vous accédez au Metastore de Hive avec une sécurité Kerberos, cochez cette case. Saisissez ensuite le Principal Hive du cluster à utiliser. Ce Principal devrait avoir été défini dans le fichier hive-site.xml. Hive principal utilise la valeur de hive.metastore.kerberos.principal. C'est le principal du service du Metastore de Hive. |
Spark catalog |
Sélectionnez l’implémentation Spark à utiliser.
|
Force MapR Ticket authentication |
Si ce cluster est un cluster MapR de version 5.0.0 ou supérieure, vous pouvez paramétrer la configuration de l'authentification par ticket MapR en plus ou comme une alternative, en suivant les explications Connexion à un cluster MapR sécurisé. Gardez à l'esprit que cette configuration génère un nouveau ticket de sécurité MapR pour le nom d'utilisateur ou d'utilisatrice défini dans le Job dans chaque exécution. Si vous devez réutiliser un ticket existant provenant du même utilisateur, laissez décochées les cases Force MapR ticket authentication et Use Kerberos authentication. MapR devrait pouvoir trouver automatiquement ce ticket à la volée. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants. Déposez un tHiveConfiguration avec le sous-Job relatif à Hive à exécuter au sein du même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |