Validieren und Korrigieren Ihrer Daten mit Data Stewardship
Mit Data Stewardship in Qlik Talend Cloud können Sie auf Fachexperten zurückgreifen, um Ihre Daten zu validieren und zu korrigieren. Verwenden Sie Ihre vorhandenen semantischen Typen und Validierungsregeln, um sicherzustellen, dass die Daten konsistent gebildet werden. Dies erweitert automatisierte Pipelines um die Einbeziehung von Personen mit Kenntnissen der Domäne in die Fehlerbehebung. Nachdem die Daten validiert sind, können Sie sie wieder in die ursprüngliche Datenquelle oder in jedes nachgelagerte System einspeisen.
Sie erstellen einen Sprint, der den Hauptteil der Arbeit für die Validierung und Fehlerbehebung darstellt. Der Sprint enthält Informationen über:
-
Die Quelldaten
-
Das für die Validierung zu verwendende Datenschema
-
Die Besitzer des Sprints
-
Die definierten Data Stewards
-
Den für Sprint-Daten verwendeten Datenspeicher
-
Workflow-Einstellungen
Während des Sprints werden alle Sprint-Daten in Ihrem eigenen Cloud Data Warehouse gespeichert und nicht in Qlik Talend Cloud. Snowflake ist derzeit das einzige unterstützte Cloud Data Warehouse.
Sie können die folgenden Benutzerrollen definieren:
-
Sprint-Besitzer
Sprint-Besitzer können Datensätze validieren, die von Daten-Stewards aufgelöst werden. Sie können auch auf Datensätze zugreifen, die aufgelöst sind, und Daten exportieren.
-
Data Steward
Ein Data Steward erhält Datensätze zugewiesen, um Qualitätsprobleme zu beheben.
Sie erstellen den Sprint in Data Stewardship im Aktivitätscenter Qlik Talend Data Integration. Sie können Auflösungs-Sprints erstellen, die Daten in einem oder mehreren Feldern des Datensatzes, der eine Validierung erfordert, korrigieren und zusammenstellen. Dies ist der Workflow:
-
Erstellen eines Auflösungs-Sprints
Erstellen Sie einen Sprint und definieren Sie die zu validierenden Daten. Sie können den Sprint entweder mit einem Talend Studio-Auftrag befüllen oder eine CSV-Datei mit Daten importieren.
Data Stewards werden definiert, um die Validierung durchzuführen. Datensätze können entweder manuell oder automatisch zugewiesen werden.
-
Arbeiten in einem Auflösungs-Sprint
Data Stewards validieren die Daten in den zugewiesenen Datensätzen.
-
Verwalten von aufgelösten Datensätzen
-
Wenn Sie den Sprint mit einem Talend Studio-Auftrag befüllt haben, erstellen Sie einen Talend Studio-Auftrag, um die validierten Datensätze abzurufen und sie an die ursprüngliche Datenquelle oder an jedes andere erforderliche Ziel zurückzugeben.
-
Wenn Sie den Sprint mit einer CSV-Datei befüllt haben, wird der Sprint durch Exportieren der validierten Daten in eine CSV-Datei abgeschlossen. Sie können die Datenquelle mit validierten Daten aktualisieren, indem Sie die exportierte CSV-Datei importieren.
-