Validera och korrigera dina data med Data stewardship/datastyrning
Med Data stewardship/datastyrning i Qlik Talend Cloud kan du dra nytta av ämnesexperter för att validera och korrigera dina data. Använd dina befintliga semantiska typer och valideringsregler för att säkerställa att data är konsekvent formade. Detta utökar automatiserade pipelines med åtgärder med mänsklig inblandning i loopen från domänexpertis. När data har validerats kan du återinföra dem i den ursprungliga datakällan, eller till något nedströms system.
Du skapar en sprint som är det huvudsakliga arbetet för validering och åtgärd. Sprinten innehåller information om:
-
Källdata
-
Dataschemat att använda för validering
-
Ägarna av sprinten
-
Datastewarderna som definieras
-
Datalagringen som används för sprintdata
-
Inställningar för arbetsflöde
Under sprinten lagras all sprintdata i ditt eget molndatalager, och inte i Qlik Talend Cloud. För närvarande är Snowflake det enda molndatalagret som stöds.
Du kan definiera följande användarroller:
-
Sprintägare
Sprintägare kan validera poster som har lösts av datastewards. De kan också komma åt poster som har lösts och exportera data.
-
Datasteward
En datasteward tilldelas poster för att lösa kvalitetsproblem.
Du skapar sprintar i Data stewardship i Qlik Talend Data Integration aktivitetscentret. Du kan skapa lösningssprintar som korrigerar och kurerar data i ett eller flera fält i datamängden som kräver validering. Detta är arbetsflödet:
-
Skapa en sprint och definiera data som ska valideras. Du kan antingen fylla sprinten med ett Talend Studio jobb, eller importera en CSV-fil med data.
Datastewards definieras för att utföra valideringen. Poster kan tilldelas antingen manuellt eller automatiskt.
-
Datastewards validerar data i de tilldelade posterna.
-
-
Om du fyllde sprinten med ett Talend Studio jobb, skapar du ett Talend Studio jobb för att hämta de validerade posterna och returnera dem till den ursprungliga datakällan, eller till någon annan önskad destination.
-
Om du fyllde sprinten med en CSV-fil, avslutas sprinten genom att exportera de validerade data till en CSV-fil. Du kan uppdatera datakällan med validerade data genom att importera den exporterade CSV-filen.
-