Accéder au contenu principal Passer au contenu complémentaire

Activation du lignage de données pour les Jobs Big Data

Avec certaines distributions Hadoop, vous pouvez tracer la manière dont vos Big Data sont gérées à travers les étapes d'entrée, de traitement et de sortie d'un Job Talend Big Data Batch.

Configurer le lignage de données avec Cloudera Navigator

Le support de Cloudera Navigator a été ajouté aux Jobs Spark de Talend.

Si vous utilisez une version Cloudera 5.5 ou supérieure pour exécuter vos Jobs, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données afin de découvrir comment ce flux de données a été généré par un Job Spark, y compris les composants utilisés dans ce Job et les modifications des schémas entre les composants.

Si vous utilisez CDP Private Cloud Base ou le Cloud Public CDP pour exécuter vos Jobs, il est recommandé d'utiliser Apache Atlas. Si vous utilisez une distribution CDP dynamique, Apache Atlas est utilisé à la place de Cloudera Navigator. Pour plus d'informations, consultez Configurer le lignage de données avec Atlas.

Par exemple, vous avez créé le Job et souhaitez générer des informations de lignage à son sujet :

Jobs Spark en cours d'exécution.
  1. Cliquez sur l'onglet Run (Exécuter) pour ouvrir la vue correspondante puis sur l'onglet Hadoop Configuration (Configuration de Hadoop). Pour un Job Spark, l'onglet à utiliser est Spark configuration (Configuration de Spark).
  2. Dans la liste Distribution, sélectionnez Cloudera et, dans la liste Version, sélectionnez Cloudera 5.5. La case Use Cloudera Navigator s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Username et Password : informations d'authentification utilisées pour vous connecter à votre Cloudera Navigator.

    • Cloudera Navigator URL : saisissez l'emplacement du Cloudera Navigator auquel vous connecter.

    • Cloudera Navigator Metadata URL : saisissez l'emplacement où sont stockées les métadonnées (Navigator Metadata).

    • Activate the autocommit option : cochez cette case pour que le Cloudera Navigator génère le lignage du Job courant à la fin de son exécution.

      Comme cette option force le Cloudera Navigator à générer des lignages de toutes ses entités disponibles, comme les fichiers et répertoires HDFS, les requêtes Hive ou les scripts Pig, il n'est pas recommandé de l'utiliser dans un environnement de production, car elle ralentit le Job.

    • Kill the job if Cloudera Navigator fails : cochez cette case pour arrêter l'exécution du Job lorsque la connexion à Cloudera Navigator échoue. Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.
    • Disable SSL validation : cochez cette case pour que votre Job se connecte au Cloudera Navigator sans processus de validation SSL.

      Cette fonctionnalité est conçue pour simplifier les tests de vos Jobs mais il n'est pas recommandé de l'utiliser dans un cluster en production.

La connexion à Cloudera Navigator a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Cloudera Navigator.

Notez que vous devez configurer les autres paramètres dans l'onglet Spark configuration pour exécuter le Job avec succès.

Une fois l'exécution du Job terminé, effectuez une recherche dans Cloudera Navigator pour chercher les données écrites par ce Job et voir le lignage de ces données dans Cloudera Navigator.

Si vous comparez le graphique de lignage au Job dans le Studio Talend, vous pouvez voir que chaque composant est présenté dans ce graphique.

Graphique de lignage dans Cloudera Navigator.

Cloudera Navigator utilise une bibliothèque SDK (uniquement en anglais) Cloudera pour fournir des fonctionnalités et doit être compatible avec la version de cette bibliothèque SDK. La version de votre Cloudera Navigator est déterminée par le Cloudera Manager installé avec votre distribution Cloudera. La bibliothèque SDK compatible est automatiquement utilisée, selon la version de votre Cloudera Navigator.

Cependant, toutes les versions de Cloudera Navigator n'ont pas de version SDK compatible. Pour plus d'informations concernant les versions de Cloudera SDK et leurs versions compatibles de Cloudera Navigator, consultez la documentation Cloudera à l'adresse Cloudera Navigator SDK Version Compatibility (uniquement en anglais) (en anglais).

Pour plus d'informations concernant les versions de Cloudera Navigator supportées par le Studio Talend, consultez Versions supportées de Cloudera Navigator pour les Jobs Talend.

Configurer le lignage de données avec Atlas

Le support d'Apache Atlas a été ajouté aux Jobs Spark de Talend.

Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas afin de visualiser le lignage d'un flux de données pour découvrir comment ces données ont été générées par un Job Spark, notamment dans les composants utilisés dans ce Job et voir les modifications des schémas entre les composants. Si vous utilisez CDP Private Cloud Base ou le Cloud Public CDP pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster, vous pouvez à présent utiliser Atlas.

Selon la version d'Hortonworks Data Platform que vous utilisez, le Studio Talend supporte la version d'Atlas suivante :
  • Hortonworks Data Platform V2.4, le Studio Talend supporte uniquement Atlas 0.5.
  • Hortonworks Data Platform V2.5, le Studio Talend supporte uniquement Atlas 0.7.
  • Hortonworks Data Platform V3.14, le Studio Talend supporte uniquement Atlas 1.1.

Par exemple, si vous avez créé le Job Spark Batch suivant et que vous souhaitez générer les informations de lignage le concernant dans Atlas :

Job Spark Batch ouvert.

Dans ce Job, le tRowGenerator est utilisé pour générer les données d'entrée, le tMap et le tSortRow sont utilisés pour traiter les données et les autres composants pour écrire les données en sortie dans différents formats.

  1. Cliquez sur l'onglet Run pour ouvrir la vue correspondante puis sur l'onglet Spark Configuration.
  2. Dans la liste Distribution et dans la liste Version, sélectionnez votre distribution Hortonworks. La case Use Atlas (Utiliser Atlas) s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

    • Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.

    • Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant suspension de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.

      Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (uniquement en anglais) (en anglais).

    • Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas. Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

La connexion à Atlas a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Notez que vous devez configurer les autres paramètres dans l'onglet Spark configuration pour exécuter le Job avec succès. Pour plus d'informations, consultez Créer un Job Spark Batch.

Lorsque l'exécution du Job est terminée, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.

Lire le lignage Atlas

Dans Atlas, le lignage écrit par un Job consiste en deux types d'entités :
    • le Job lui-même,

    • les composants dans le Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration comme le tHDFSConfiguration ne sont pas pris compte étant donné que ces composants n'utilisent pas de schéma.

Le Job d'exemple génère six entités : une pour le Job et cinq pour les composants. Il ajoute automatiquement trois libellés différents à ces entités :
  • Talend pour toutes les entités générées par le Job,

  • TalendComponent pour toutes les entités des composants.,

  • TalendJob pour toutes les entités de Jobs.

Vous pouvez cliquer directement sur l'un de ces libellés dans Atlas pour afficher les entités correspondantes.

Par exemple, vous pouvez cliquer sur TalendJob pour afficher une liste des entités enregistrées dans Atlas et sélectionner un Job pour voir ses informations de lignage. L'image suivante affiche la manière dont le flux de données est géré, dans le Job utilisé comme exemple :
Graphique de lignage dans Atlas.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.