Profiler un fichier ADLS Databricks via Hive

Depuis la perspective Profiling du Studio Talend, vous pouvez générer une analyse de colonnes sur un fichier ADLS Databricks via Hive.

Une connexion JDBC est requise pour vous connecter à Hive sur Databricks.

télécharger le pilote JDBC et l'ajouter au Studio Talend,
créer une connexion JDBC au cluster ADLS,
créer une analyse de colonnes avec des indicateurs simples sur la table et les colonnes.

Vous pouvez modifier les paramètres de l'analyse et ajouter d'autres indicateurs selon vos besoins. Vous pouvez également créer ultérieurement d'autres analyses sur ce fichier ADLS en utilisant la même table Hive.

Télécharger le pilote JDBC et l'ajouter au Studio Talend

Le pilote JDBC est un fichier Jar que vous devez créer afin de créer une connexion JDBC.

Procedure

Allez à la page de téléchargement des pilotes (uniquement en anglais) de Databricks et enregistrez-vous.
Téléchargez le pilote JDBC.
Rendez-vous sur la page Studio Talend.
Dans le menu, cliquez sur Window > Show view....
Dans la boîte de dialogue Show view, commencez à saisir Modules.
Sous Talend, sélectionnez Modules et cliquez sur Open (Ouvrir).
Dans la vue Modules, cliquez sur .
Parcourez votre système jusqu'au fichier Jar et cliquez sur Open.

Results

Vous pouvez voir le pilote JDBC dans la liste des modules.

Se connecter à un fichier ADLS Databricks Gen2

Vous devez créer une table externe et configurer un paramètre pour profiler un fichier ADLS Databricks Gen2.

Before you begin

Vous avez créé une table externe. Pour plus d'informations, consultez la documentation Microsoft Azure (uniquement en anglais).

Pour créer une table externe, vous pouvez utiliser les composants tAzureFSConfiguration et tJava.

About this task

Cette procédure est spécifique à ADLS Databricks Gen2.

Procedure

Dans l'onglet Configuration de la page de votre cluster Databricks, développez Advanced options.
Dans l'onglet Spark, ajoutez les propriétés Spark suivantes : spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

Cette clé est associée au compte de stockage à utiliser. Cette clé se trouve dans le panneau Access keys de ce compte de stockage. Deux clés sont disponibles pour chaque compte. Par défaut, n'importe laquelle peut être utilisée pour accéder au compte.

Assurez-vous que le compte à utiliser contient les droits d'accès en lecture écriture appropriés.

Créer une connexion à un cluster Databricks ADLS

Before you begin

Vous avez sélectionné la perspective Profiling .
Vous avez suivi la procédure Télécharger le pilote JDBC et l'ajouter au Studio Talend.

About this task

Pour vous connecter à un cluster Databricks sur Amazon S3, suivez cette procédure Ajouter des propriétés spécifiques S3 pour accéder au système S3 depuis Databricks.

Procedure

Dans l'arborescence DQ Repository, développez Metadata et cliquez-droit sur DB Connections.
Cliquez sur Create DB Connection.
L'assistant Database Connection s'affiche.
Saisissez un nom puis cliquez sur Next. Les autres champs sont requis.
Sélectionnez JDBC dans DB Type.
Dans le champ JDBC URL, saisissez l'URL de votre cluster ADLS Databricks. Pour obtenir l'URL :
1. Allez dans Azure Databricks.
2. Dans la liste des clusters, cliquez sur le cluster auquel vous souhaitez vous connecter.
3. Développez la section Advanced Options et sélectionnez l'onglet JDBC/ODBC.
4. Copiez le contenu du champ JDBC URL. Le format d'URL est jdbc:spark://<server-hostname>:<port>/default;transportMode=http;ssl=1;httpPath=<http-path>;AuthMech=3.
  
  Note InformationsNote: Pour chiffrer le jeton de manière sécurisée, il est recommandé de saisir les paramètres UID et PWD dans l'assistant Database Connection du Studio Talend.
Retournez dans l'assistant Database Connection.
Collez l'URL JDBC.
Ajoutez le pilote JDBC à la liste Drivers :
1. Cliquez sur le bouton [+]. Une nouvelle ligne est ajoutée à la liste.
2. Cliquez sur le bouton […] près de la nouvelle ligne. La boîte de dialogue Module s'ouvre.
3. Dans la liste Platform, sélectionnez le pilote JDBC et cliquez sur OK. Vous retournez dans l'assistant Database Connection.
Cliquez sur Select class name à côté du champ Driver Class et sélectionnez com.simba.spark.jdbc4.Driver.
Saisissez l'identifiant User Id et le mot de passe Password.
Dans le fichier Mapping file, sélectionnez Mapping Hive.
Cliquez sur Test Connection.
- Si le test est réussi, cliquez sur Finish pour fermer l'assistant.
- Si le test échoue, vérifiez la configuration.

Créer une analyse de profiling sur un fichier ADLS Databricks via Hive

Après avoir créé une connexion à un cluster ADLS Databricks via Hive, vous pouvez créer une analyse de profiling sur un fichier spécifique.

Before you begin

Vous avez sélectionné la perspective Profiling .
Vous avez suivi la procédure Créer une connexion à un cluster Databricks ADLS.
Pour plus d'informations concernant les analyses de colonnes, consultez Analyses de colonnes.

Procedure

Dans la vue DQ Repository, développez Metadata > DB Connections > la connexion JDBC > Tables.
Dans le dossier Columns, sélectionnez les colonnes à analyser et cliquez-droit sur celles-ci.

Note InformationsTip: Pour créer une analyse sur toutes les colonnes, cliquez-droit sur le nom de la table.
Passez votre curseur sur Column Analysis et sélectionnez le type d'analyse.
L'assistant Create New Analysis s'ouvre.
Saisissez un nom et cliquez sur Finish. Les autres champs sont facultatifs.
Une nouvelle analyse sur le fichier ADLS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Selon le type d'analyse sélectionné, les indicateurs sont automatiquement attribués aux colonnes.
L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis ADLS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier ADLS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.
Si nécessaire :
- Modifiez les colonnes à analyser : Dans l'onglet Data Preview, cliquez sur Select Columns.
- Ajoutez plus d'indicateurs ou de nouveaux modèles aux colonnes : Dans l'onglet Analyzed Columns, cliquez sur Select Indicators.
Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results de l'éditeur.

What to do next

Vous pouvez créer un rapport sur cette analyse. Consultez Créer un rapport sur des analyses spécifiques.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici