Profiler un fichier HDFS
Dans la perspective Profiling du Studio Talend, vous pouvez générer une analyse de colonnes avec des indicateurs de statistiques simples sur un fichier HDFS via une connexion Hive.
La séquence de création d'une analyse de profiling sur un fichier HDFS file comprend les étapes suivantes :
- Création d'une connexion à un cluster Hadoop.
- Création d'une connexion à un serveur Hive.
Cette étape n'est pas obligatoire, comme il vous sera demandé de créer la connexion à Hive simultanément, pendant que vous créez la connexion à un fichier HDFS.
-
Création d'une connexion à un fichier HDFS.
Cette étape vous guide pour créer une table Hive external, qui laisse les données dans le fichier mais crée une définition de table dans le Metastore Hive. Cela permet au Studio Talend d'exécuter des requêtes SQL sur les données du fichier via la connexion à Hive.
- Création d'une analyse de colonnes avec des indicateurs simples sur la table Hive.
Vous pouvez modifier les paramètres de l'analyse et ajouter d'autres indicateurs selon vos besoins. Vous pouvez également créer ultérieurement d'autres analyses sur ce fichier HDFS en utilisant la même table Hive.
- TXT
- CSV
- Parquet, avec une structure plate
Créer une connexion à un cluster Hadoop
Avant de commencer
- Vous avez sélectionné la perspective Profiling .
- Vous devez avoir les droits d'accès à la distribution Hadoop et à son HDFS.
Procédure
Résultats
Créer une connexion à Hive
Avant de commencer
Vous devez avoir créé une connexion à la distribution Hadoop.
Procédure
Résultats
Pour plus d'informations concernant la création de connexions à Hive, consultez Centraliser des métadonnées Hive.
Créer une connexion à un fichier HDFS
Avant de commencer
- Vous avez sélectionné la perspective Profiling .
- Vous devez avoir créé une connexion à la distribution Hadoop.
Procédure
Résultats
Pour plus d'informations concernant la création de connexions à HDFS, consultez Centraliser des métadonnées HDFS.
Créer une analyse de profiling sur un fichier HDFS via une table Hive
Avant de commencer
- Vous avez sélectionné la perspective Profiling .
- Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.
Pourquoi et quand exécuter cette tâche
- TXT
- CSV
- Parquet, avec une structure plate