データ スチュワードシップによるデータの検証と修正
Qlik Talend Cloud のデータ スチュワードシップを使用すると、分野のエキスパートの知見を活用してデータを検証および修正できます。既存のセマンティック タイプと検証ルールを使用して、データが一貫した形式であることを確認します。これにより、自動化されたパイプラインに、ドメイン エキスパートを活用したヒューマンインザループの修復プロセスを組み込むことができます。データが検証されたら、元のデータ ソース、または任意のダウンストリーム システムに再投入できます。
検証および修正作業の中核となるスプリントを作成します。スプリントには次の情報が含まれます。
-
ソース データ
-
検証に使用するデータ スキーマ
-
スプリントの所有者
-
定義されたデータ スチュワード
-
スプリント データに使用されるデータ ストレージ
-
ワークフロー設定
スプリント中は、すべてのスプリント データは Qlik Talend Cloud ではなく、ユーザーのクラウド データ ウェアハウスに保存されます。現在、サポートされているクラウド データ ウェアハウスは Snowflake のみです。
次のユーザー ロールを定義できます。
-
スプリント オーナー
スプリント オーナーは、データ スチュワードによって解決されたレコードを検証できます。解決済みのレコードにアクセスし、データをエクスポートすることもできます。
-
データ スチュワード
データ スチュワードには、品質問題を解決するためのレコードが割り当てられます。
Qlik Talend Data Integration アクティビティ センターの [データ スチュワードシップ] でスプリントを作成します。検証が必要なデータセット内の 1 つ以上の項目でデータを修正およびキュレーションする解決スプリントを作成できます。ワークフローは次のとおりです。
-
スプリントを作成し、検証するデータを定義します。スプリントに Talend Studio ジョブを設定するか、データを含む CSV ファイルをインポートできます。
検証を実行する データ スチュワード が定義されます。レコードは、手動または自動で割り当てることができます。
-
データ スチュワードは、割り当てられたレコード内のデータを検証します。
-
-
Talend Studio ジョブを使用してスプリントにデータを投入した場合、検証済みのレコードを取得し、元のデータソースまたはその他の必要な宛先に返す Talend Studio ジョブを作成します。
-
CSV ファイルを使用してスプリントにデータを投入した場合、検証済みのデータを CSV ファイルにエクスポートすることでスプリントが完了します。エクスポートした CSV ファイルをインポートすることで、データソースを検証済みのデータで更新できます。
-