Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tDataQualityRules, un tExtractJSONFields, un tFilterRow et trois tLogRow.
Reliez les composants suivants à l'aide de liens Main :
le tFixedFlowInput au tDataQualityRules,
le tDataQualityRules à l'un des tLogRow,
le tExtractJSONFields au tFilterRow,
Avec un lien Filter, reliez le tFilterRow à un autre tLogRow.
Reliez les composants suivants à l'aide de liens Reject :
le tDataQualityRules au tExtractJSONFields,
le tFilterRow au dernier tLogRow.
Note InformationsConseil : Si vous souhaitez récupérer uniquement les données valides, reliez le tDataQualityRules à un seul tLogRow, à l'aide d'un lien Main. Vous n'avez pas besoin des composants tExtractJSONFields et tFilterRow.
Configurer le composant tFixedFlowInput
Procédure
Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.
Sélectionnez Built-In dans la liste Schema et cliquez sur […] près de Edit schema.
Pour ajouter des colonnes, cliquez sur l', puis sur OK.
Sélectionnez l'option Use Inline Content (delimited file).
Saisissez vos données. Vous pouvez utiliser les données du jeu de données dans le fichier suivant : scholarship_programs.zip.
Note InformationsConseil :Talend Cloud Data Stewardship est utilisé dans cet exemple. Vous pouvez également saisir l'URL de la version hybride de Talend Data Stewardship 8.0 R2022-07 ou une version supérieure et Talend Cloud Data Inventory.
Pourquoi et quand exécuter cette tâche
Vous avez besoin de l'autorisation Rules - View (Règles - Visualisation) pour récupérer les règles. Pour plus d'informations, consultez les Rôles utilisateur·trices prédéfinis relatifs à l'application que vous utilisez.
Procédure
Sélectionnez Built-In dans la liste Output schema.
Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant d'entrée.
Dans la liste déroulante Application, sélectionnez Data Stewardship.
Saisissez l'URL de Talend Cloud Data Stewardship : "https://tds.us.cloud.talend.com/rulerepository/api/v1".
Pour saisir votre jeton d'accès personnel, cliquez sur le bouton [...].
Pour récupérer les règles de qualité de données, cliquez sur Refresh.
Si vous mettez à jour les règles de qualité de données dans Talend Cloud Data Stewardship, cliquez sur Refresh pour récupérer la dernière version.
Cliquez sur le bouton [...] près de Configure DQ rules.
Sélectionnez la règle et associez les variables de règles aux colonnes d'entrée.
Vous pouvez associer les types de données dans le Studio Talend à certains types de données dans Talend Cloud Data Stewardship. Consultez Associer des types de données.
Si aucune règle ou colonne d'entrée n'est disponible, vérifiez que :
Les règles de qualité de données ont été récupérées dans DQ rule library timestamp (Horodatage des bibliothèques de règles DQ).
Le schéma d'entrée est correct.
Cliquez sur OK pour valider la configuration.
Configurer le tExtractJSONFields
Pourquoi et quand exécuter cette tâche
Le tExtractJSONFields vous permet d'obtenir des données plus lisibles, afin de les filtrer plus facilement via un composant tFilterRow.
Procédure
Sélectionnez Built-In dans les listes Property Type et Schema.
Cliquez sur le bouton [...] à côté du champ Edit Schema.
La colonne INVALID_STATUS a été ajoutée au schéma d'entrée. Vous pouvez renommer la colonne dans le schéma de sortie.
Sélectionnez JsonPath et, dans la liste API version, sélectionnez 2.1.0.
Saisissez le caractère de remplacement * dans le champ Loop Jsonpath query pour sélectionner tous les éléments.
Sélectionnez INVALID_STATUS dans la liste déroulante JSON Field.
Définissez la requête JSON dans la table Mapping.
Les colonnes du schéma sont listées dans le champ Column de la table Mapping.
Dans la colonne Json query de la table Mapping, saisissez executionResults[0].status pour Status.
executionResults[0].status est le chemin d'accès au statut status où [0] représente les détails d'exécution de la première règle. Si vous avez besoin des détails d'exécution de la deuxième règle, utilisez [1], si vous avez besoin des détails de la troisième règle, utilisez [2], etc. Cela simplifie le filtrage des données en utilisant le composant tFilterRow.
Exemple
Le statut INVALID_STATUS est : [{"executionResults":[{"ruleName":"ScholarshipProgram_Else","inputColumn":["EffectiveOn","Code","Program"],"status":"Invalid"}]}].
Le tExtractJSONFields le transforme en Invalid.
Configurer le tFilterRow
Pourquoi et quand exécuter cette tâche
Le composant tFilterRow de ce scénario crée deux catégories :
NE : La règle ne peut être exécutée sur les données.
Invalide : Les données sont conformes à la condition mais pas à l'expression de validation.
Procédure
Dans la table Conditions, cliquez sur l'.
Dans InputColumn, sélectionnez Status.
Dans Value, saisissez "NE".
Note InformationsA faire : Si vous ajoutez plusieurs colonnes, définissez l'opérateur logique au-dessus de la table : And/Or. Par défaut, And est sélectionné.
Configurer les composants tLogRow
Procédure
Double-cliquez sur les composants tLogRow afin d'ouvrir leur vue Basic settings.
Dans la liste Schema, sélectionnez Built-in puis cliquez sur Sync columns.
Dans la zone Mode, sélectionnez Table (print values in cells of a table).
Exécuter le Job
Procédure
Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
Résultats
Le tLogRow ayant le lien Main retourne les étudiants pour lesquels :
le code de statut est 2632 et la date est 2021-09-01,
OU
le code de statut n'est pas 2632 et le programme se termine par 10AB ou 10AC.
Le statut NE signifie que la règle ne peut être exécutée sur les données. Dans ce scénario, le code de statut est abcd mais la condition de règle est is equal to 2632.
Les autres données invalides signifient :
le code de statut est 2632 mais la date n'est pas 2021-09-01,
ou
le code de statut n'est pas 2632 et le programme ne se termine pas par 10AB ou 10AC.
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.