Accéder au contenu principal Passer au contenu complémentaire

Profiler un fichier HDFS

Dans la perspective Profiling du Studio Talend, vous pouvez générer une analyse de colonnes avec des indicateurs de statistiques simples sur un fichier HDFS via une connexion Hive.

La séquence de création d'une analyse de profiling sur un fichier HDFS file comprend les étapes suivantes :

  1. Création d'une connexion à un cluster Hadoop.
  2. Création d'une connexion à un serveur Hive.

    Cette étape n'est pas obligatoire, comme il vous sera demandé de créer la connexion à Hive simultanément, pendant que vous créez la connexion à un fichier HDFS.

  3. Création d'une connexion à un fichier HDFS.

    Cette étape vous guide pour créer une table Hive external, qui laisse les données dans le fichier mais crée une définition de table dans le Metastore Hive. Cela permet au Studio Talend d'exécuter des requêtes SQL sur les données du fichier via la connexion à Hive.

  4. Création d'une analyse de colonnes avec des indicateurs simples sur la table Hive.

Vous pouvez modifier les paramètres de l'analyse et ajouter d'autres indicateurs selon vos besoins. Vous pouvez également créer ultérieurement d'autres analyses sur ce fichier HDFS en utilisant la même table Hive.

Note InformationsRemarque :
Vous pouvez profiler des fichiers des formats suivants :
  • TXT
  • CSV
  • Parquet, avec une structure plate

Créer une connexion à un cluster Hadoop

Before you begin

  • Vous avez sélectionné la perspective Profiling .
  • Vous devez avoir les droits d'accès à la distribution Hadoop et à son HDFS.

Procedure

  1. Dans la vue DQ Repository, développez Metadata, cliquez-droit sur Hadoop Cluster et sélectionnez Create Hadoop Cluster.
    Menu contextuel du nœud Hadoop Cluster.
    Un assistant s'ouvre et vous guide à travers les étapes de création d'une connexion au cluster.
  2. Suivez les étapes de l’assistant afin de créer la connexion et choisissez de saisir manuellement les informations de configuration de Hadoop (dans Enter manually Hadoop services).
    Pour des informations détaillées concernant la création de connexions aux clusters Hadoop, consultez Gérer les métadonnées Hadoop.
  3. Cliquez sur Check Services dans la dernière étape de l'assistant afin de vérifier si la connexion est établie, puis cliquez sur Finish.

Results

La nouvelle connexion à Hadoop s'affiche sous le nœud Hadoop Cluster dans la vue DQ Repository.

Créer une connexion à Hive

Vous pouvez créer une connexion à Hive directement depuis la connexion définie pour la distribution Hadoop. Cependant, vous pouvez procéder différemment et créer la connexion à Hive simultanément pendant que vous créez une analyse sur un fichier HDFS, comme décrit dans Créer une connexion à un fichier HDFS.

Before you begin

Vous avez sélectionné la perspective Profiling .

Vous devez avoir créé une connexion à la distribution Hadoop.

Procedure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à Hadoop à utiliser et sélectionnez Create Hive pour ouvrir un assistant.
    Menu contextuel d'une connexion à Hadoop.
  2. Suivez les étapes dans l'assistant pour créer la connexion puis cliquez sur Check dans la dernière étape afin de vérifier que la connexion est établie.
  3. Cliquez sur Finish (Terminer).

Results

La nouvelle connexion à Hive est listée sous les nœuds Hadoop Cluster et DB connections dans la vue DQ Repository.
Nouvelle connexion à Hive dans le nœud Metadata (Métadonnées).

Pour plus d'informations concernant la création de connexions à Hive, consultez Centraliser des métadonnées Hive.

Créer une connexion à un fichier HDFS

Before you begin

  • Vous avez sélectionné la perspective Profiling .
  • Vous devez avoir créé une connexion à la distribution Hadoop.

Procedure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à Hadoop à utiliser et sélectionnez Create HDFS.
    Un assistant s'ouvre et vous guide à travers les étapes d'utilisation du schéma d'un fichier de HDFS.
  2. Suivez les étapes dans l'assistant pour créer la connexion puis cliquez sur Check dans la dernière étape afin de vérifier que la connexion est établie.
  3. Cliquez sur Finish (Terminer).

Results

La nouvelle connexion à HDFS s'affiche sous le nœud Hadoop Cluster dans la vue DQ Repository.
Nouvelle connexion à HDFS dans le nœud Metadata (Métadonnées).

Pour plus d'informations concernant la création de connexions à HDFS, consultez Centraliser des métadonnées HDFS.

Créer une analyse de profiling sur un fichier HDFS via une table Hive

Before you begin

  • Vous avez sélectionné la perspective Profiling .
  • Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.

About this task

Vous pouvez profiler des fichiers des formats suivants :
  • TXT
  • CSV
  • Parquet, avec une structure plate

Procedure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à HDFS à utiliser et sélectionnez Create Simple Analysis.
    Une boîte de dialogue s'ouvre et liste les schémas HDFS de la connexion.
    Vue d'ensemble des schémas HDFS dans une connexion.
  2. Cochez la case du fichier à profiler.
    Attendez jusqu'à ce que Success s'affiche dans la colonne Creation status.
    Note InformationsNote: La table Hive que vous créez se base sur les dossiers et non sur les fichiers. Ne sélectionnez pas des fichiers ayant des structures différentes.
  3. Cliquez sur Check Connection (Vérifier la connexion) afin de vérifier le statut de la connexion puis cliquez sur Next (Suivant) pour ouvrir une nouvelle vue dans l'assistant, listant le schéma du fichier sélectionné.
    Vue d'ensemble du schéma d'un fichier sélectionné.
  4. Modifiez le schéma si nécessaire.
    Si le schéma contient une colonne Date, assurez-vous de configurer correctement le modèle de date. Sinon, vous risquez d'avoir un résultat null.
  5. Cliquez sur Next pour ouvrir une nouvelle vue de l'assistant, dans laquelle vous pouvez créer une table avec le schéma HDFS dans une connexion à Hive.
  6. Optional: Si nécessaire, saisissez un nouveau nom pour la table. Utilisez des minuscules, car Hive stocke ses tables avec des noms en minuscules.
    Exemple de nom en minuscules dans le champ New Table Name (Nom de la nouvelle table).
  7. Soit :
    • dans la liste Select one existed Hive Connection, sélectionner la connexion à Hive dans laquelle vous souhaitez créer la table.

      Vous devez avoir au moins une connexion à Hive correctement configurée avant de créer la table. L'option Select one existed Hive Connection est désactivée si vous n'avez pas créé au moins une connexion à Hive.

      Vous devez créer une connexion à Hive si vous sélectionnez l'option Create a new Hive Connection dans cette vue de l'assistant.

    • Ou sélectionner l'option Create a new Hive Connection afin de créer d'abord une connexion à Hive puis de créer la table dans la nouvelle connexion.
  8. Cliquez sur Finish (Terminer).
    L'assistant [New Analysis] s'ouvre.
  9. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    Vue d'ensemble des sections Data Preview (Aperçu des données) et Analyzed Columns (Colonnes analysées).

    Une nouvelle analyse sur le fichier HDFS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Des indicateurs de statistiques simples sont automatiquement assignés aux colonnes.

    L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis HDFS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier HDFS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.

  10. Cliquez sur Refresh Data pour afficher le contenu de la colonne.
    Vous pouvez utiliser l'onglet Select Columns pour modifier les colonnes à analyser.
  11. Si nécessaire, cliquez sur Select Indicators pour ajouter d'autres indicateurs ou de nouveaux modèles aux colonnes.
  12. Exécutez l'analyse pour afficher les résultats dans la section Analysis Results (Résultats d'analyse) dans l'éditeur.
    Tableaux et graphiques pour l'indicateur Simple Statistics (Statistiques simples).

    Pour plus d'informations concernant les analyses de colonnes, consultez Analyses de colonnes.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.