Définition du lignage des données avec Atlas
Si vous utilisez Hortonworks Data Platform V2.4.0 ou supérieure pour exécuter vos Jobs MapReduce et Spark Batch et que vous avez installé Atlas dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour visualiser le lignage d'un flux de données en particulier afin de découvrir comment ces données sont générées par un Job.
Le lignage comprend tous les composants utilisés dans ce Job et les modifications du schéma entre les composants.
Ce type de Job est disponible uniquement lorsque vous avez souscrit à l'un des produits Talend avec Big Data ou à Talend Data Fabric.
- Hortonworks Data Platform V2.4, le Studio Talend supporte uniquement Atlas 0.5.
- Hortonworks Data Platform V2.5, le Studio Talend supporte uniquement Atlas 0.7.
Procédure
Lorsque cette option est activée, vous devez configurer les paramètres suivants :
-
Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port
-
Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.
-
Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant suspension de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.
Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (en anglais).
-
Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.
Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.
- Hortonworks Data Platform V2.4, le Studio Talend supporte uniquement Atlas 0.5.
- Hortonworks Data Platform V2.5, le Studio Talend supporte uniquement Atlas 0.7.
Résultats
Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.
Lorsque l'exécution du Job est terminée, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.
-
le Job même
-
les composants du Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration comme le tHDFSConfiguration ne sont pas pris compte étant donné que ces composants n'utilisent pas de schéma.