メイン コンテンツをスキップする

SnowflakeでのTalend Trust Scoreについて

Snowflakeのネイティブデータクオリティ計算機能は、データの正確性と信頼性を保証するツールです。

データセットの包括的な分析を行い、有効性と完全性をチェックします。データクオリティチェックはSnowflakeのテーブル全体に対して実行されます。

妥当性チェックにはデータクオリティルールが含まれています。詳細は、データクオリティルールとはをご覧ください。

Talend Cloud Data Inventoryでは、Talend Trust Scoreの進化によってデータセットのクオリティを計時的に追跡できます。
次の図は、Talend Trust Scoreの計算方法に関する詳細の一部を表したものです。
Talend Trust Scoreの計算方法を説明する図。
情報メモ重要:
  • Talend Cloud Data Inventoryは、AWS、GCP、Microsoft AzureでのSnowflakeと互換性があります。
  • Snowflakeを使うには、一部の権限が必要です。Snowflakeドキュメンテーションをご覧ください。
  • Talend Cloud Data InventoryでSnowflakeを使うと、Snowflakeの計算料金に影響を与えます。
  1. Snowflake接続からデータセットを追加すると、妥当性チェックのため、DQ JavaライブラリーとセマンティックディクショナリーのコピーがSnowflakeに送信されます。
    Snowflake接続のJDBC URLにプッシュダウンパラメーターがあることを確認します。例:
    jdbc:snowflake://account.snowflakecomputing.com/?db=MY_DB&schema=PUBLIC&warehouse=MY_WAREHOUSE_WH&runProfile=sql
                      
    詳細は、Snowflake接続にプッシュダウンパラメーターを追加をご覧ください。
    情報メモヒント: クローラーを使ってテーブルやビューを複数の取得できます。Talend APIを使えば、のクオリティ計算を自動化することもできます。詳細は、Scheduling a crawler runをご覧ください。
  2. DQ JavaライブラリーはJava UDFとして定義されます。

    Talend Cloud Data Inventoryからデータセットにデータクオリティルールを適用する場合、そのルールはUDFを使ってSnowflakeでもネイティブに計算されます。

  3. SnowflakeでTalend Trust Scoreを計算する場合は、次のステップが行われます。
    1. セマンティック検索によって、データの性質と形式が定義されます。データセットの各カラムのセマンティックタイプは、最大10,000行のサンプルを分析することでチェックされます。デフォルトで、サンプルには最初の行が含まれています。[Head sample] (ヘッドサンプル)といいます。また、行はランダムで選択できます。[Random sample] (ランダムサンプル)といいます。

    2. データの妥当性と完全性: レコードがセマンティックタイプに対して確認されて、フィールドが有効か無効であることが判別されます。フィールドがセマンティックタイプに一致しない場合は、ネイティブタイプに対してチェックされます。

      Talend Cloud Data InventoryのJDBC URLを使えば、Snowflakeのテーブル全体で有効性と完全性が計算されます。

      Talend Cloud Data Inventoryのデータセットの概要では、Snowflakeテーブルのサンプルをプレビューし、有効なレコードと無効なレコードを取得できます。このサンプルには最大10,000レコードが含まれています。

      カラムとデータセットヘッダーにあるデータクオリティバーは、テーブル全体のクオリティを表しています。

    3. Talend Trust Score: Snowflakeで、データセット全体の妥当性と完全性が計算されます。Talend Cloud Data Inventoryでは、データセットの概要からTalend Trust Scoreの推移だけでなく、履歴も確認できます。

      また、データセットリストやデータコンソールからTalend Trust Scoreを取得することもできます。

  4. サンプルはTalend Cloud Data Inventoryに送信され、データセット全体のTalend Trust Scoreが次のように計算されます。
    • Snowflakeでテーブル全体に対し、妥当性と完全性がネイティブに計算されます。データクオリティルールのコンプライアンスもテーブル全体で実行されます。
    • Talend Cloud Data Inventoryでは人気度、検索性、使用状況が計算されます。各軸の詳細については、Talend Trust Score™を確認をご覧ください。

以上で、お使いのデータセットに対し、5つの軸を持つTalend Trust Scoreが完成します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。