Validation et correction de vos données avec Data stewardship
Avec Data stewardship dans Qlik Talend Cloud, vous pouvez faire appel à des experts en la matière pour valider et corriger vos données. Utilisez vos types sémantiques et vos règles de validation existants pour vous assurer que les données sont formées de manière cohérente. Cela étend les pipelines automatisés avec une remédiation human-in-the-loop (humain dans la boucle) basée sur une expertise dans le domaine. Lorsque les données sont validées, vous pouvez les réinjecter dans la source de données d'origine ou dans tout système en aval.
Vous créez un sprint qui est le corps de travail principal pour la validation et la remédiation. Le sprint contient des informations sur :
-
Les données sources
-
Le schéma de données à utiliser pour la validation
-
Les propriétaires du sprint
-
Les Data stewards définis
-
Le stockage de données utilisé pour les données de sprint
-
Paramètres du flux de travail
Lors du sprint, toutes les données de sprint sont stockées dans votre propre entrepôt de données cloud et non dans Qlik Talend Cloud. Actuellement, Snowflake est le seul entrepôt de données cloud supporté.
Vous pouvez définir les rôles d'utilisateur suivants :
-
Propriétaire du sprint
Les propriétaires de sprint peuvent valider les enregistrements qui sont résolus par les Data stewards. Ils peuvent également accéder aux enregistrements résolus et exporter des données.
-
Data steward
Un Data steward se voit attribuer des enregistrements pour résoudre des problèmes de qualité.
Vous créez des sprints dans Data stewardship dans le centre d'activités Qlik Talend Data Integration. Vous pouvez créer des sprints de résolution qui corrigent les données et les organisent dans un ou plusieurs champs du jeu de données à valider. Voici le flux de travail :
-
Création d'un sprint de résolution
Créez un sprint et définissez les données à valider. Vous pouvez soit alimenter le sprint à l'aide d'un Job Studio Talend, soit importer un fichier CSV contenant des données.
Des Data stewards sont définis pour effectuer la validation. Les enregistrements peuvent être attribués soit manuellement, soit automatiquement.
-
Utilisation d'un sprint de résolution
Les Data stewards valident les données des enregistrements attribués.
-
Gestion des enregistrements résolus
-
Si vous avez alimenté le sprint via un Job Studio Talend, vous créez un Job Studio Talend pour récupérer les enregistrements validés et les renvoyer à la source de données d'origine ou à toute autre destination requise.
-
Si vous avez alimenté le sprint via un fichier CSV, le sprint se conclut par l'exportation des données validées dans un fichier CSV. Vous pouvez mettre à jour la source de données à l'aide des données validées en important le fichier CSV exporté.
-