Accéder au contenu principal Passer au contenu complémentaire

Créer une connexion à une base de données Hive

Procédure

  1. Développez le nœud Hadoop cluster situé sous le nœud Metadata dans la vue Repository. Cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create Hive dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre File > Edit project properties.
  3. Cliquez sur Next pour passer à l'étape suivante et renseigner les informations de connexion à la base de données Hive. Parmi ces informations, les champs DB Type (Type de BdD), Hadoop cluster (Cluster Hadoop), Server (Serveur), NameNode URL (URL du NameNode) et JobTracker URL (URL du JobTracker) sont automatiquement renseignés avec les propriétés héritées de la connexion à Hadoop que vous avez sélectionnée dans les étapes précédentes.
    Notez que si vous choisissez None dans la liste Hadoop cluster, vous basculez dans un mode manuel dans lequel les données héritées sont abandonnées. Vous devez donc configurer chaque propriété vous-même. La connexion créée apparaît sous le nœud Db connection uniquement.
    Boîte de dialogue New Database Connection on repository - Step 2/2 (Nouvelle connexion à la base de données dans le référentiel - Étape 2/2) affichant les paramètres Hive.
    Les propriétés à définir peuvent varier suivant la distribution Hadoop utilisée.
  4. Dans la zone Connection info (Information de connexion), sélectionnez le modèle de la base de données Hive à laquelle vous souhaitez vous connecter.
  5. Les champs affichés varient selon le modèle sélectionné.
    Lorsque vous laissez le champ Database vide, sélectionnez le modèle Standalone pour autoriser la connexion à la base de données Hive default uniquement.
  6. Si vous accédez à une distribution de Hadoop fonctionnant avec la sécurité Kerberos, cochez la case Use Kerberos authentication. Puis saisissez le nom du Principal Kerberos dans le champ Hive principal.
    Si vous devez utiliser un fichier Keytab pour vous connecter, cochez la case Use a keytab to authenticate, saisissez le Principal à utiliser, dans le champ Principal, puis, dans le champ Keytab, parcourez votre système jusqu'au fichier Keytab à utiliser.

    Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.

    Assurez-vous que Kerberos a bien été configuré en suivant la procédure présentée dans cet article How to use Kerberos in Talend Studio (en anglais).

    Exemple

    Configuration de Kerberos.
  7. Dans le champ Hive metastore port, saisissez le numéro du port d'écoute du Metastore du système Hive à utiliser.
    Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,).
  8. Si vous utilisez une distribution qui supporte Tez mais qui n'est pas officiellement supportée par Talend, sélectionnez Tez comme framework de vos Jobs dans la liste Execution engine.
    Lorsque vous réutilisez cette connexion dans un composant Hive, vous devez configurer l'accès aux bibliothèques de Tez via la vue Advanced settings du composant.
  9. Si vous devez utiliser une configuration personnalisée pour la distribution d'Hadoop ou de Hive à utiliser, cliquez sur le bouton [...] à côté du champ Hadoop properties ou Hive Properties, pour ouvrir la table des propriétés correspondante et ajouter une ou des propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le Studio Talend pour son moteur Hadoop.
    Pour plus d'informations concernant les propriétés Hadoop, consultez la documentation Apache Hadoop (en anglais), ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, cette page (en anglais) liste certaines propriétés Hadoop par défaut.
    Pour plus d'informations concernant les propriétés de Hive, consultez la documentation de Apache Hive. Par exemple, cette page (en anglais) décrit certaines propriétés de la configuration de Hive.
    Pour savoir comment tirer parti de ces tables des propriétés, consultez Configuration des propriétés réutilisables de Hadoop.
    Boîte de dialogue Hive Properties (Propriétés Hive).
  10. Cliquez sur le bouton Check afin de vérifier que votre connexion est établie.
  11. Si nécessaire également, renseignez les propriétés de base de données dans la zone Database Properties.
  12. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.
    La nouvelle connexion spécifiée à la base de données Hive s'affiche sous le nœud DB Connections de la vue Repository. Cette connexion contient quatre sous-dossiers parmi lesquels Table schema peut regrouper tous les schémas relatifs à cette connexion.
    Connexion à Hive affichée dans l'arborescence Repository (Référentiel).
    Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :
    • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop actuelle, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

    • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion actuelle.

    Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

    Pour un exemple pas-à-pas de l'utilisation de cette fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres de contexte pour configurer une connexion.

  13. Cliquez-droit sur la connexion Hive que vous avez créée et sélectionnez Retrieve Schema pour extraire tous les schémas de la base de données Hive définie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.