Convalida e correzione dei dati con la stewardship dei dati
Con la Stewardship dei dati in Qlik Talend Cloud, puoi avvalerti di esperti in materia per convalidare e correggere i tuoi dati. Utilizza i tipi semantici e le regole di convalida esistenti per assicurarti che i dati siano formati in modo coerente. Ciò estende le pipeline automatizzate con la correzione human-in-the-loop basata sull'esperienza di dominio. Quando i dati sono convalidati, puoi re-iniettarli nella sorgente dati originale o in qualsiasi sistema a valle.
Si crea uno sprint che è il corpo principale del lavoro per la convalida e la correzione. Lo sprint contiene informazioni su:
-
I dati di origine
-
Lo schema dei dati da utilizzare per la convalida
-
I proprietari dello sprint
-
Gli steward dei dati che sono definiti
-
L'archiviazione dei dati utilizzata per i dati dello sprint
-
Impostazioni del flusso di lavoro
Durante lo sprint, tutti i dati dello sprint vengono archiviati nel tuo data warehouse cloud, e non in Qlik Talend Cloud. Attualmente, Snowflake è l'unico data warehouse cloud supportato.
È possibile definire i seguenti ruoli utente:
-
Proprietario sprint
I proprietari di Sprint possono convalidare i record risolti dai data steward. Possono anche accedere ai record risolti ed esportare i dati.
-
Amministratore dati
A un data steward vengono assegnati record per risolvere problemi di qualità.
Si creano sprint in Stewardship dei dati nel Qlik Talend Data Integration centro attività. È possibile creare sprint di risoluzione che correggono e curano i dati in uno o più campi nel set di dati che richiede la convalida. Questo è il flusso di lavoro:
-
Creazione di uno sprint di risoluzione
Creare uno sprint e definire i dati da convalidare. È possibile popolare lo sprint con un Talend Studio processo, o importare un file CSV con i dati.
I Data steward sono definiti per eseguire la convalida. I record possono essere assegnati manualmente o automaticamente.
-
Lavorare in uno sprint di risoluzione
I Data steward convalidano i dati nei record assegnati.
-
-
Se lo sprint è stato popolato con un Talend Studio Job, si crea un Talend Studio Job per recuperare i record convalidati e restituirli alla sorgente dati originale o a qualsiasi altra destinazione richiesta.
-
Se lo sprint è stato popolato con un file CSV, lo sprint si conclude con l'esportazione dei dati convalidati in un file CSV. È possibile aggiornare la sorgente dati con i dati convalidati importando il file CSV esportato.
-