Accéder au contenu principal Passer au contenu complémentaire

Propriétés du tHiveConfiguration pour Apache Spark Streaming

Ces propriétés sont utilisées pour configurer le tHiveConfiguration s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tHiveConfiguration Spark Streaming appartient à la famille Stockage.

Ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Distribution et Version

Sélectionnez la distribution Hadoop que vous utilisez pour Hive.

Notez que la version de Hive requise par Spark est 0.13+.

Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez.

Hive thrift metastore

Saisissez l'emplacement du Metastore du système Hive à utiliser en spécifiant le nom de son hôte (Host) et le numéro de son Port d'écoute. Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,).

Use Kerberos authentication

Si vous accédez au Metastore de Hive avec une sécurité Kerberos, cochez cette case.

Saisissez ensuite le Principal Hive du cluster à utiliser. Ce Principal devrait avoir été défini dans le fichier hive-site.xml.

Hive principal utilise la valeur de hive.metastore.kerberos.principal. C'est le principal du service du Metastore de Hive.

Force MapR Ticket authentication

Si ce cluster est un cluster MapR de version 5.0.0 ou supérieure, vous pouvez paramétrer la configuration de l'authentification par ticket MapR en plus ou comme une alternative, en suivant les explications Connexion à un cluster MapR sécurisé.

Gardez à l'esprit que cette configuration génère un nouveau ticket de sécurité MapR pour le nom d'utilisateur ou d'utilisatrice défini dans le Job dans chaque exécution. Si vous devez réutiliser un ticket existant provenant du même utilisateur, laissez décochées les cases Force MapR ticket authentication et Use Kerberos authentication. MapR devrait pouvoir trouver automatiquement ce ticket à la volée.

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un tHiveConfiguration avec le sous-Job relatif à Hive à exécuter au sein du même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.