Accéder au contenu principal Passer au contenu complémentaire

Créer une analyse de profiling sur un fichier HDFS via une table Hive

Avant de commencer

  • Vous avez sélectionné la perspective Profiling .
  • Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.

Pourquoi et quand exécuter cette tâche

Vous pouvez profiler des fichiers des formats suivants :
  • TXT
  • CSV
  • Parquet, avec une structure plate

Procédure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à HDFS à utiliser et sélectionnez Create Simple Analysis.
    Une boîte de dialogue s'ouvre et liste les schémas HDFS de la connexion.
    Vue d'ensemble des schémas HDFS dans une connexion.
  2. Cochez la case du fichier à profiler.
    Attendez jusqu'à ce que Success s'affiche dans la colonne Creation status.
    Note InformationsRemarque : La table Hive que vous créez se base sur les dossiers et non sur les fichiers. Ne sélectionnez pas des fichiers ayant des structures différentes.
  3. Cliquez sur Check Connection (Vérifier la connexion) afin de vérifier le statut de la connexion puis cliquez sur Next (Suivant) pour ouvrir une nouvelle vue dans l'assistant, listant le schéma du fichier sélectionné.
    Vue d'ensemble du schéma d'un fichier sélectionné.
  4. Modifiez le schéma si nécessaire.
    Si le schéma contient une colonne Date, assurez-vous de configurer correctement le modèle de date. Sinon, vous risquez d'avoir un résultat null.
  5. Cliquez sur Next pour ouvrir une nouvelle vue de l'assistant, dans laquelle vous pouvez créer une table avec le schéma HDFS dans une connexion à Hive.
  6. Facultatif : Si nécessaire, saisissez un nouveau nom pour la table. Utilisez des minuscules, car Hive stocke ses tables avec des noms en minuscules.
    Exemple de nom en minuscules dans le champ New Table Name (Nom de la nouvelle table).
  7. Soit :
    • dans la liste Select one existed Hive Connection, sélectionner la connexion à Hive dans laquelle vous souhaitez créer la table.

      Vous devez avoir au moins une connexion à Hive correctement configurée avant de créer la table. L'option Select one existed Hive Connection est désactivée si vous n'avez pas créé au moins une connexion à Hive.

      Vous devez créer une connexion à Hive si vous sélectionnez l'option Create a new Hive Connection dans cette vue de l'assistant.

    • Ou sélectionner l'option Create a new Hive Connection afin de créer d'abord une connexion à Hive puis de créer la table dans la nouvelle connexion.
  8. Cliquez sur Finish (Terminer).
    L'assistant [New Analysis] s'ouvre.
  9. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    Vue d'ensemble des sections Data Preview (Aperçu des données) et Analyzed Columns (Colonnes analysées).

    Une nouvelle analyse sur le fichier HDFS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Des indicateurs de statistiques simples sont automatiquement assignés aux colonnes.

    L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis HDFS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier HDFS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.

  10. Cliquez sur Refresh Data pour afficher le contenu de la colonne.
    Vous pouvez utiliser l'onglet Select Columns pour modifier les colonnes à analyser.
  11. Si nécessaire, cliquez sur Select Indicators pour ajouter d'autres indicateurs ou de nouveaux modèles aux colonnes.
  12. Exécutez l'analyse pour afficher les résultats dans la section Analysis Results (Résultats d'analyse) dans l'éditeur.
    Tableaux et graphiques pour l'indicateur Simple Statistics (Statistiques simples).

    Pour plus d'informations concernant les analyses de colonnes, consultez Par quoi commencer ?.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.