Propriétés du tHiveConfiguration pour Apache Spark Batch

Ces propriétés sont utilisées pour configurer le tHiveConfiguration s'exécutant dans le framework de Jobs Spark Batch.

Le composant tHiveConfiguration Spark Batch appartient à la famille Stockage.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Property Type	Sélectionnez la manière de configurer les informations de connexion. Built-In : les paramètres de connexion seront définis localement pour ce composant. Vous devez spécifier manuellement les valeurs pour toutes les propriétés de connexion. Repository : les paramètres de connexion stockés centralement dans le Repository > Metadata seront réutilisés par ce composant. Vous devez cliquer sur le bouton [...] et, dans la boîte de dialogue Repository Content, sélectionnez les détails de connexion à réutiliser. Toutes les propriétés de connexion seront automatiquement renseignées.
Distribution et Version	Sélectionnez la distribution Hadoop que vous utilisez pour Hive. Notez que la version de Hive requise par Spark est 0.13+. Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez.
Hive thrift metastore	Saisissez l'emplacement du Metastore du système Hive à utiliser en spécifiant le nom de son hôte (Host) et le numéro de son Port d'écoute. Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,).
Use Kerberos authentication	Si vous accédez au Metastore de Hive avec une sécurité Kerberos, cochez cette case. Saisissez ensuite le Principal Hive du cluster à utiliser. Ce Principal devrait avoir été défini dans le fichier hive-site.xml. Hive principal utilise la valeur de hive.metastore.kerberos.principal. C'est le principal du service du Metastore de Hive.
Spark catalog	Sélectionnez l’implémentation Spark à utiliser. In-memory : sélectionnez cette valeur pour configurer Hive thrift metastore sur un métastore Hive qui n'est pas externe. Hive : sélectionnez cette valeur pour configurer Hive thrift metastore sur un métastore Hive externe à votre cluster.
Force MapR Ticket authentication	Si ce cluster est un cluster MapR de version 5.0.0 ou supérieure, vous pouvez paramétrer la configuration de l'authentification par ticket MapR en plus ou comme alternative, en suivant les explications dans Connexion sécurisée à MapR. Gardez à l'esprit que cette configuration génère un nouveau ticket de sécurité MapR pour le nom d'utilisateur ou d'utilisatrice défini dans le Job dans chaque exécution. Si vous devez réutiliser un ticket existant provenant du même utilisateur, laissez décochées les cases Force MapR ticket authentication et Use Kerberos authentication. MapR devrait pouvoir trouver automatiquement ce ticket à la volée.

Utilisation

Règle d'utilisation	Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants. Déposez un tHiveConfiguration avec le sous-Job relatif à Hive à exécuter au sein du même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.
Connexion à Spark	Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers : Yarn mode (Yarn Client ou Yarn Cluster) : Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration. Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration (en anglais). Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch (en anglais). Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem). Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un tHiveConfiguration avec le sous-Job relatif à Hive à exécuter au sein du même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :

Yarn mode (Yarn Client ou Yarn Cluster) :
- Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.
- Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.
- Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration (en anglais).
Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch (en anglais).

Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici