メイン コンテンツをスキップする 補完的コンテンツへスキップ

Talend Cloud Data Preparationを使ってデータセットのTalend Trust Scoreを改善

Talend Cloud Data PreparationTalend Cloud Data Inventoryと組み合わせて使用することで、データの全体的なヘルスとクオリティを改善できます。

この例では、あなたはB2B eコマース企業に勤務しています。ビジネスユーザーであるあなたは、組織のデータのクオリティと全体的なヘルスを監視するだけでなく、その改善に積極的に関与する必要があります。このシナリオでは、データセットのクオリティとTalend Trust Scoreが改善するよう、社内のデータセットインベントリーをナビゲートし、作業が必要な項目を特定してさまざまな問題を修正する方法を紹介します。

データコンソールを通じてインベントリーを確認

データコンソールを使い、全データのハイレベルなビューを表示させます。

Talend Cloudプラットフォームにログインして作業を開始した後、Talend Cloud Data Inventoryを開いて[Data Console] (データコンソール)ビューを表示させると、組織全体のデータセットがすべて可視化されます。

クオリティインジケーター、チャート、データセットに関する情報を伴うデータコンソールビュー。

データセットインベントリーの特定のメトリックをカバーするタイル(Talend Trust Score、データクオリティ、セマンティックタイプなど)により、データコンソールではデータヘルスとそれを改善する方法を瞬時に把握できるようになります。Talend Trust Scoreタイルを見れば、全体的なクオリティと信頼性を評価できます。

総合スコア、そのスコアを構成する5軸のレーダーチャート、定義済みの許容しきい値との比較による総合スコアと軸スコアを時系列で表示したチャートがあります。

しきい値はTalend Trust Scoreの側面やタイル別に設定が可能です。これによって、組織の基準に従って何を良しとし、何を悪いとするかを定義できます。定義済みのしきい値を満たさないデータセットにはタイルから直接アクセスできるので、必要に応じて適切な処置を取れます。

Trust Scoreパラメーターに設定されているしきい値。

次に、フィルターを使って検索を絞り込み、Talend Trust Scoreの全体的なスコアを低下させる傾向があるデータセットを見つけてみましょう。

フィルターを使って修正が必要なデータセットを検索

会社の課金システムに問題があり、財務報告書に異常な結果が表示されているとリーダーチームから教えられました。 そこで、データコンソールでインベントリーをフィルタリングし、課金情報が含まれているデータセットをチェックしてみます。 このようなデータセットにはあらかじめタグが付けられており、そのタグを基準にして検索を絞り込みます。

Procedure

  1. データコンソールビューの上部で、[Add filter] (フィルターを追加)をクリックします。
  2. 開いたドロップダウンリストで、[Tags] (タグ) > [Billing] (請求)をクリックします。
  3. [Apply] (適用)をクリックします。
    [Billing] (請求)タグが検索に適用された状態。

Results

データコンソールビューがアップデートされ、一致するデータセットのクオリティのみが反映されるようになります。Talend Trust Scoreの履歴チャートから、受信した最新のデータセットが総合スコアの面で要求されるしきい値を満たしていないことがわかります。
レーダーチャート、および最近スコアが悪かったことを示すスコア履歴チャートを伴うTrust Scoreタイル。

[Data quality] (データクオリティ)タイルを見ると、データセット全体の有効値の数も許容範囲外であることがわかります。

[Data quality] (データクオリティ)チャートに、固定基準にもとづいた有効値の数がされている状態。

結論として、総合的なTalend Trust Scoreが最近低下している根本的な原因はそのような残りのデータセットにあると判断できます。次のステップは、データセットリストで詳細を確認することです。

改善するデータセットを有能なユーザーと共有

あなたは、課金情報が含まれているデータセットを改善する必要があると認識しています。 ただ、財務データを参照するデータセットにあまり慣れていないため、Talend Cloud Data PreparationTalend Cloud Data Inventoryのコラボレーションファンクションを活用しようと考えています。そこで最善の方策として、スコアが最も低いデータセットを、この分野の専門知識が豊富な財務部門の同僚と共有します。

Procedure

  1. 左側のメニューで[Datasets] (データセット)をクリックし、データセットリストにアクセスします。
    前に設定したフィルターがまだ有効なので、Billingというタグを持つ数個のデータセットだけが表示され、インベントリー全体は表示されません。
    [Biling] (請求)タグでフィルタリングされたデータセットリスト。
  2. Talend Trust Scoreが最も低いcustomers_billing_datasetデータセットにマウスポインターを置き、Sharingカラムで共有アイコンをクリックします。
  3. 開いた共有設定ウィンドウで、Group financeユーザーグループにマウスポインターを置いて+アイコンをクリックし、このデータセットのコラボレーターとして追加します。
    デフォルトでは、このユーザーグループはビューアーのみの権限で追加されます。
  4. [Current collaborators] (現在の共同作業者)カラムで、ユーザーグループの横にある[Viewer] (ビューアー)ラベルをクリックし、開いたドロップダウンリストで、その権限を[Editor] (編集者)に変更します。
    共有ウィンドウ、ここではGroup Financeがデータセットにアクセス可能。
  5. [Share] (共有)をクリックします。

Results

財務部門の同僚もcustomers_billing_datasetデータセットにアクセスし、データを詳しく調べて、最終的にはクオリティエラーを修正できるようになります。

Talend Cloud Data Preparationの問題を修正

あなたは財務部門のデータアナリストで、アクセス権を持つcustomers_billing_datasetデータセットのクオリティが低いことを調査する任務を与えられています。 これからデータそのものを確認し、新しいプレパレーションを作成します。

Procedure

  1. [Dataset] (データセット)リストでcustomers_billing_datasetをクリックし、データセットの詳細ビューを開きます。
    Talend Trust Scoreの図を見ると、ここ数日減少傾向にあることから、データベースに追加された最新のデータにエラーが含まれていることがわかります。これは、[Data quality] (データクオリティ)タイルに無効値や空白値が一定の割合で表示されていることで確認できます。
    チャートやクオリティインジケーターを伴うcustomers_billing_datasetの詳細ビュー。
  2. データそのものを確認するためには、左メニューで[Sample] (サンプル)アイコンをクリックします。
    データがグリッドビューで表示されます。特定のカラムで有効値と無効値が一致していないことがすぐにわかります。最も顕著なのはBilling_Countryカラムで、複数のカラムに分割されているはずの住所が完全な形で含まれてしまっています。
    データセットのサンプルビューで、データ内の修正すべきエラーが示されている状態。
  3. このデータセットで新しいプレパレーションを開始し、これらのエラーを修正するためには、画面右上の[Preparations] (プレパレーション) > [Add] (追加)ボタンをクリックします。
    マウスが[Add preparation] (プレパレーションを追加)ボタンをポイントしている状態。

    Talend Cloud Data Preparationが開き、データサンプルで変換操作を適用できるようになります。

  4. 次のファンクションを適用し、請求情報を修正します。
    1. Billing_Countryカラムに[Split the text in parts] (テキストを複数の部分に分割)を適用し、区切り文字として,を使って4つの部分に分割します。
    2. Billing_Country_Split_2カラム、Billing_Country_Split_3カラム、Billing_Country_Split_4カラムに[Remove trailing and leading characters] (末尾文字と先頭文字を削除)を適用して空白を削除します。
    3. Billing_Country_Split_1カラムに[Delete the rows that match] (値に一致した行を削除)を適用し、(FR)|(US)|(GB)という正規表現をとして使用します。
    完全な住所のデータが新しいカラムに分割されました。また、それが正しい形式であることを確証できるよう、クリーニングも行われました。これによって最初にエラーが含まれていた行だけが残り、請求情報は国、州、市、番地それぞれの専用カラムへと適切に分割されました。

Results

ソースデータセットのアップデートに使用できる、よりクリーンなデータがプレパレーションに表示されるようになります。
データクオリティとフォーマッティングが改善されたデータセットのサンプルビュー。

プレパレーションを実行してソースデータセットをアップデート

ソースデータをアップデートするためには、プレパレーションから元のデータセットに固定データを送る必要があります。

ただし、前に使用した分割ファンクションがあるため、プレパレーションのスキーマとデータベースから来るデスティネーションデータセットのスキーマを一致させるマッピングステップを完了させる必要があります。

プレパレーションを実行した後は、さまざまなクオリティインジケーターにおけるプレパレーションの影響を確認できるようになります。

Procedure

  1. 画面右上の[Run] (実行)ボタンをクリックし、エクスポートオプションを開きます。
  2. [Source dataset] (ソースデータセット)を選択し、ソースデータセットをアップデートします。
  3. [Next] (次へ)をクリックします。
  4. [Action] (アクション)ドロップダウンリストで[Update] (アップデート)を選択し、データベースからの間違ったレコードをプレパレーションからのレコードに置き換えます。
  5. [Operation keys] (操作キー)ドロップダウンリストで、Customer_idをカラムとして選択します。
  6. [Next] (次へ)をクリックします。
  7. ドラッグ&ドロップを使い、プレパレーションの結果スキーマとデスティネーションデータセットのスキーマの間で次のマッピングを実行します。
    1. Customer_idCustomer_idをマッピング
    2. Billing_Country_Split_1Billing_Streetをマッピング
    3. Billing_Country_Split_2Billing_Cityをマッピング
    4. Billing_Country_Split_3Billing_Stateをマッピング
    5. Billing_Country_Split_4Billing_countryをマッピング
    カラムのマッピング方法について詳細は、プレパレーションとデスティネーションカラムのマッピングをご覧ください。
    入力カラムと出力カラム間のマッピング設定。
  8. [Next] (次へ)をクリックします。
  9. Cloud Engine for Designでプレパレーションを実行するため、実行プロファイルとして[Standard] (標準)を選択します。
  10. [Run] (実行)をクリックします。
    実行がバックグラウンドで開始され、準備画面に戻ります。
  11. 実行の状態を確認するためには、画面右上の[Run history] (実行履歴)ボタンをクリックします。
    実行のメトリクスとステータスを表す[Run history] (実行履歴)パネル。
    この画面では、現在と過去の実行に関するさまざまな情報を確認できます。詳細は、実行履歴ページをご覧ください。
  12. 実行が完了し成功したら、[Destination dataset] (デスティネーションデータセット)セクションにあるcustomers_billing_datasetをクリックして、アップデートされたデータセットの詳細ビューに直接戻ります。
  13. [Data quality] (データクオリティ)タイルで、[Select sample type] (サンプルタイプを選択) > [Refresh head sample] (ヘッドサンプルを更新)をクリックし、データベースのコンテンツに加えられた最新の変更を取得します。

Results

更新後は、データセットのTalend Trust Scoreが大幅に上昇していることがわかります。スコアの横に差分が表示されます。
1.05ポイントの上昇を示すTrust Scoreアイコン。

Talend Cloud Data InventoryTalend Cloud Data Preparationを使用することで、組織全体のデータセットを監視し、さまざまなインジケーターを用いて潜在的エラーを特定して修正し、データヘルスを向上させることができるようになりました。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。