Talend Cloud Data Preparationを使ってデータセットのTalend Trust Scoreを改善
Talend Cloud Data PreparationをTalend Cloud Data Inventoryと組み合わせて使用することで、データの全体的なヘルスとクオリティを改善できます。
この例では、あなたはB2B eコマース企業に勤務しています。ビジネスユーザーであるあなたは、組織のデータのクオリティと全体的なヘルスを監視するだけでなく、その改善に積極的に関与する必要があります。このシナリオでは、データセットのクオリティとTalend Trust Scoreが改善するよう、社内のデータセットインベントリーをナビゲートし、作業が必要な項目を特定してさまざまな問題を修正する方法を紹介します。
データコンソールを通じてインベントリーを確認
データコンソールを使い、全データのハイレベルなビューを表示させます。
Talend Cloudプラットフォームにログインして作業を開始した後、Talend Cloud Data Inventoryを開いて[Data Console] (データコンソール)ビューを表示させると、組織全体のデータセットがすべて可視化されます。
データセットインベントリーの特定のメトリックをカバーするタイル(Talend Trust Score、データクオリティ、セマンティックタイプなど)により、データコンソールではデータヘルスとそれを改善する方法を瞬時に把握できるようになります。Talend Trust Scoreタイルを見れば、全体的なクオリティと信頼性を評価できます。
総合スコア、そのスコアを構成する5軸のレーダーチャート、定義済みの許容しきい値との比較による総合スコアと軸スコアを時系列で表示したチャートがあります。
しきい値はTalend Trust Scoreの側面やタイル別に設定が可能です。これによって、組織の基準に従って何を良しとし、何を悪いとするかを定義できます。定義済みのしきい値を満たさないデータセットにはタイルから直接アクセスできるので、必要に応じて適切な処置を取れます。
次に、フィルターを使って検索を絞り込み、Talend Trust Scoreの全体的なスコアを低下させる傾向があるデータセットを見つけてみましょう。
フィルターを使って修正が必要なデータセットを検索
Procedure
Results
[Data quality] (データクオリティ)タイルを見ると、データセット全体の有効値の数も許容範囲外であることがわかります。
結論として、総合的なTalend Trust Scoreが最近低下している根本的な原因はそのような残りのデータセットにあると判断できます。次のステップは、データセットリストで詳細を確認することです。
改善するデータセットを有能なユーザーと共有
Procedure
Results
Talend Cloud Data Preparationの問題を修正
Procedure
Results
プレパレーションを実行してソースデータセットをアップデート
ただし、前に使用した分割ファンクションがあるため、プレパレーションのスキーマとデータベースから来るデスティネーションデータセットのスキーマを一致させるマッピングステップを完了させる必要があります。
プレパレーションを実行した後は、さまざまなクオリティインジケーターにおけるプレパレーションの影響を確認できるようになります。
Procedure
Results
Talend Cloud Data InventoryとTalend Cloud Data Preparationを使用することで、組織全体のデータセットを監視し、さまざまなインジケーターを用いて潜在的エラーを特定して修正し、データヘルスを向上させることができるようになりました。