Accéder au contenu principal

Validation et correction de vos données avec Data stewardship

Avec Data stewardship dans Qlik Talend Cloud, vous pouvez faire appel à des experts en la matière pour valider et corriger vos données. Utilisez vos types sémantiques et vos règles de validation existants pour vous assurer que les données sont formées de manière cohérente. Cela étend les pipelines automatisés avec une remédiation human-in-the-loop (humain dans la boucle) basée sur une expertise dans le domaine. Lorsque les données sont validées, vous pouvez les réinjecter dans la source de données d'origine ou dans tout système en aval.

Note Informations Disponible dans Qlik Talend Cloud Enterprise.

Vous créez un sprint qui est le corps de travail principal pour la validation et la remédiation. Le sprint contient des informations sur :

  • Les données sources

  • Le schéma de données à utiliser pour la validation

  • Les propriétaires du sprint

  • Les Data stewards définis

  • Le stockage de données utilisé pour les données de sprint

  • Paramètres du flux de travail

Lors du sprint, toutes les données de sprint sont stockées dans votre propre entrepôt de données cloud et non dans Qlik Talend Cloud. Actuellement, Snowflake est le seul entrepôt de données cloud supporté.

Vous pouvez définir les rôles d'utilisateur suivants :

  • Propriétaire du sprint

    Les propriétaires de sprint peuvent valider les enregistrements qui sont résolus par les Data stewards. Ils peuvent également accéder aux enregistrements résolus et exporter des données.

  • Data steward

    Un Data steward se voit attribuer des enregistrements pour résoudre des problèmes de qualité.

Vous créez des sprints dans Data stewardship dans le centre d'activités Qlik Talend Data Integration. Vous pouvez créer des sprints de résolution qui corrigent les données et les organisent dans un ou plusieurs champs du jeu de données à valider. Voici le flux de travail :

  1. Création d'un sprint de résolution

    Créez un sprint et définissez les données à valider. Vous pouvez soit alimenter le sprint à l'aide d'un Job Studio Talend, soit importer un fichier CSV contenant des données.

    Des Data stewards sont définis pour effectuer la validation. Les enregistrements peuvent être attribués soit manuellement, soit automatiquement.

  2. Utilisation d'un sprint de résolution

    Les Data stewards valident les données des enregistrements attribués.

  3. Gestion des enregistrements résolus

    • Si vous avez alimenté le sprint via un Job Studio Talend, vous créez un Job Studio Talend pour récupérer les enregistrements validés et les renvoyer à la source de données d'origine ou à toute autre destination requise.

    • Si vous avez alimenté le sprint via un fichier CSV, le sprint se conclut par l'exportation des données validées dans un fichier CSV. Vous pouvez mettre à jour la source de données à l'aide des données validées en important le fichier CSV exporté.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.