SnowflakeでのTalend Trust Scoreについて

Snowflakeのネイティブデータクオリティ計算機能は、データの正確性と信頼性を保証するツールです。

データセットの包括的な分析を行い、有効性と完全性をチェックします。データクオリティチェックはSnowflakeのテーブル全体に対して実行されます。

妥当性チェックにはデータクオリティルールが含まれています。詳細は、データクオリティルールとはをご覧ください。

Talend Cloud Data Inventoryでは、Talend Trust Scoreの進化によってデータセットのクオリティを計時的に追跡できます。

次の図は、Talend Trust Scoreの計算方法に関する詳細の一部を表したものです。

重要:

Talend Cloud Data Inventoryは、AWS、GCP、Microsoft AzureでのSnowflakeと互換性があります。
Snowflakeを使うには、一部の権限が必要です。Snowflakeドキュメンテーションをご覧ください。
Talend Cloud Data InventoryでSnowflakeを使うと、Snowflakeの計算料金に影響を与えます。

Snowflake接続からデータセットを追加すると、妥当性チェックのため、DQ JavaライブラリーとセマンティックディクショナリーのコピーがSnowflakeに送信されます。
Snowflake接続のJDBC URLにプッシュダウンパラメーターがあることを確認します。例:
```
jdbc:snowflake://account.snowflakecomputing.com/?db=MY_DB&schema=PUBLIC&warehouse=MY_WAREHOUSE_WH&runProfile=sql
                  
```
詳細は、Snowflake接続にプッシュダウンパラメーターを追加をご覧ください。
情報メモヒント: クローラーを使ってテーブルやビューを複数の取得できます。Talend APIを使えば、のクオリティ計算を自動化することもできます。詳細は、Scheduling a crawler runをご覧ください。
DQ JavaライブラリーはJava UDFとして定義されます。
Talend Cloud Data Inventoryからデータセットにデータクオリティルールを適用する場合、そのルールはUDFを使ってSnowflakeでもネイティブに計算されます。
SnowflakeでTalend Trust Scoreを計算する場合は、次のステップが行われます。
1. セマンティック検索によって、データの性質と形式が定義されます。データセットの各カラムのセマンティックタイプは、最大10,000行のサンプルを分析することでチェックされます。デフォルトで、サンプルには最初の行が含まれています。[Head sample] (ヘッドサンプル)といいます。また、行はランダムで選択できます。[Random sample] (ランダムサンプル)といいます。
2. データの妥当性と完全性: レコードがセマンティックタイプに対して確認されて、フィールドが有効か無効であることが判別されます。フィールドがセマンティックタイプに一致しない場合は、ネイティブタイプに対してチェックされます。
  Talend Cloud Data InventoryのJDBC URLを使えば、Snowflakeのテーブル全体で有効性と完全性が計算されます。
  
  Talend Cloud Data Inventoryのデータセットの概要では、Snowflakeテーブルのサンプルをプレビューし、有効なレコードと無効なレコードを取得できます。このサンプルには最大10,000レコードが含まれています。
  
  カラムとデータセットヘッダーにあるデータクオリティバーは、テーブル全体のクオリティを表しています。
3. Talend Trust Score: Snowflakeで、データセット全体の妥当性と完全性が計算されます。Talend Cloud Data Inventoryでは、データセットの概要からTalend Trust Scoreの推移だけでなく、履歴も確認できます。
  また、データセットリストやデータコンソールからTalend Trust Scoreを取得することもできます。
サンプルはTalend Cloud Data Inventoryに送信され、データセット全体のTalend Trust Scoreが次のように計算されます。
- Snowflakeでテーブル全体に対し、妥当性と完全性がネイティブに計算されます。データクオリティルールのコンプライアンスもテーブル全体で実行されます。
- Talend Cloud Data Inventoryでは人気度、検索性、使用状況が計算されます。各軸の詳細については、Talend Trust Score™を確認をご覧ください。

以上で、お使いのデータセットに対し、5つの軸を持つTalend Trust Scoreが完成します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください