Création d'un sprint de résolution à partir d'un fichier CSV

Vous pouvez créer un sprint de résolution à partir d'un fichier CSV contenant les données à valider.

Conditions préalables requises

Avant de créer le sprint, vous devez remplir les conditions suivantes :

Vous devez disposer d'un espace à utiliser lors de la création du sprint.

Les propriétaires/créateurs de sprint doivent disposer des autorisations suivantes dans l'espace : Peut gérer, Accès en écriture, Accès en lecture, Peut afficher les données

Les Data stewards doivent disposer des autorisations suivantes dans l'espace : Accès en écriture, Accès en lecture, Peut afficher les données
Vous devez disposer d'une connexion au data warehouse Snowflake que vous souhaitez utiliser pour stocker les données de sprint. N'utilisez pas de passerelle de données pour la connexion.

Tous les utilisateurs de sprint doivent disposer des autorisations suivantes dans l'espace de la connexion : Accès en écriture, Accès en lecture, Peut afficher les données

Vous pouvez créer une connexion dans Connexions dans le centre d'activités Qlik Talend Data Integration.

Pour plus d'informations sur les connexions Snowflake, consultez Snowflake.

Création d'un sprint

Pour créer un sprint de résolution, cliquez sur Créer un sprint dans Data stewardship dans le centre d'activités Qlik Talend Data Integration.

Paramètres de sprint généraux

Nom

Donnez un nom au sprint.
Espace

Sélectionnez l'espace dans lequel créer le sprint.
Description

Ajoutez une description du sprint.
Source d'alimentation du sprint

Sélectionnez Fichier.

Importez le fichier CSV contenant les données à valider.

Cliquez sur Suivant lorsque vous êtes prêt à définir le schéma de données.

Définition du schéma de données

Vous pouvez maintenant valider le schéma de données utilisé pour valider les données et l'adapter à vos besoins. Des indicateurs de qualité des données sont affichés pour chaque colonne et les valeurs potentiellement non valides sont mises en surbrillance. Cela est basé sur un échantillon des données.

Verrouillage des colonnes

Cliquez sur ... sur une colonne et sélectionnez Verrouiller pour empêcher la modification de la colonne dans le sprint. Les données de la colonne resteront visibles, mais ne pourront pas être modifiées par des Data stewards.

Exclusion de colonnes

Cliquez sur ... sur une colonne et sélectionnez Exclure pour exclure la colonne du sprint. Les données de la colonne ne seront pas visibles aux Data stewards.

Application d'un type sémantique à une colonne

La colonne utilisera son type de données natif par défaut. Vous pouvez appliquer un type sémantique à la colonne pour aider les stewards lors de la validation des données.

Sélectionnez la colonne et cliquez sur à côté de Type de données. Vous pouvez maintenant sélectionner un type sémantique à appliquer à la colonne.

Vous pouvez également modifier le nom et la description de chaque colonne.

Cliquez sur Suivant lorsque vous êtes prêt à définir le stockage de données.

Ajout d'une règle de validation à une colonne

Vous pouvez appliquer des règles de validation à une colonne pour faciliter l'identification des données non valides. Les données non valides seront mises en surbrillance dans la colonne.

Sélectionnez la colonne et cliquez sur Appliquer la règle de validation. Vous pouvez soit sélectionner une règle de validation existante, soit en créer une nouvelle.

Pour plus d'informations sur la création de règles de validation, consultez Création d'une règle de validation.

Connexion au stockage de données

Vous devez vous connecter à l'entrepôt de données cloud que vous souhaitez utiliser pour stocker les données du sprint. Snowflake est actuellement le seul entrepôt de données supporté.

Sélectionnez la connexion à l'entrepôt de données.
Sélectionnez la base de données à utiliser.
Décidez si vous souhaitez utiliser un schéma de base de données existant ou un nouveau schéma de base de données.

Si vous sélectionnez Nouveau schéma de base de données, définissez le nom du nouveau schéma.
Définissez le nom de la table à utiliser pour les données de sprint résolues dans Nom de table pour les enregistrements résolus.

Cliquez sur Suivant lorsque vous êtes prêt à définir les rôles et d'autres paramètres pour le flux de travail de sprint.

Définition des rôles et des paramètres du flux de travail de sprint

La dernière étape consiste à définir les rôles et d'autres paramètres.

Ajouter des propriétaires

Ajoutez tous les utilisateurs qui devraient être propriétaires du sprint.
Ajouter des stewards

Ajoutez tous les Data stewards pour ce sprint.
Workflow d'enregistrement

Vous pouvez décider si vous souhaitez ajouter une deuxième étape de validation par les propriétaires du sprint.

Note InformationsSi un utilisateur qui est à la fois propriétaire du sprint et Data steward valide un enregistrement, la deuxième étape de validation est ignorée.
Attribution d'enregistrements

Sélectionnez si vous souhaitez attribuer automatiquement les enregistrements ou si vous souhaitez attribuer manuellement les enregistrements aux Data stewards.
- Auto
  
  Les enregistrements sont attribués automatiquement aux Data stewards avec une répartition égale. Les enregistrements ne seront pas attribués aux propriétaires de sprint qui ne sont pas également des Data stewards.
- Manuel
  
  Les enregistrements ne seront initialement pas attribués à un Data steward. Les propriétaires de sprint et les Data stewards peuvent attribuer des enregistrements à partir de la section Non attribués.
Priorité

Vous pouvez définir la priorité du sprint. La priorité est utilisée pour trier les sprints de la liste de sprints.

Cliquez sur Enregistrer lorsque vous êtes prêt à créer le sprint.

Le sprint est maintenant créé et les Data stewards désignés peuvent commencer à valider les données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici