SnowflakeでのTalend Trust Scoreについて
Snowflakeのネイティブデータクオリティ計算機能は、データの正確性と信頼性を保証するツールです。
データセットの包括的な分析を行い、有効性と完全性をチェックします。データクオリティチェックはSnowflakeのテーブル全体に対して実行されます。妥当性チェックにはデータクオリティルールが含まれています。詳細は、データクオリティルールとはをご覧ください。
Talend Cloud Data Inventoryでは、Talend Trust Scoreの進化によってデータセットのクオリティを計時的に追跡できます。 次の図は、Talend Trust Scoreの計算方法に関する詳細の一部を表したものです。
情報メモ重要:
- Talend Cloud Data Inventoryは、AWS、GCP、Microsoft AzureでのSnowflakeと互換性があります。
- Snowflakeを使うには、一部の権限が必要です。Snowflakeドキュメンテーションをご覧ください。
- Talend Cloud Data InventoryでSnowflakeを使うと、Snowflakeの計算料金に影響を与えます。
- Snowflake接続からデータセットを追加すると、妥当性チェックのため、DQ JavaライブラリーとセマンティックディクショナリーのコピーがSnowflakeに送信されます。Snowflake接続のJDBC URLにプッシュダウンパラメーターがあることを確認します。例:詳細は、Snowflake接続にプッシュダウンパラメーターを追加をご覧ください。
jdbc:snowflake://account.snowflakecomputing.com/?db=MY_DB&schema=PUBLIC&warehouse=MY_WAREHOUSE_WH&runProfile=sql
情報メモヒント: クローラーを使ってテーブルやビューを複数の取得できます。Talend APIを使えば、のクオリティ計算を自動化することもできます。詳細は、Scheduling a crawler runをご覧ください。 - DQ JavaライブラリーはJava UDFとして定義されます。
Talend Cloud Data Inventoryからデータセットにデータクオリティルールを適用する場合、そのルールはUDFを使ってSnowflakeでもネイティブに計算されます。
- SnowflakeでTalend Trust Scoreを計算する場合は、次のステップが行われます。
-
セマンティック検索によって、データの性質と形式が定義されます。データセットの各カラムのセマンティックタイプは、最大10,000行のサンプルを分析することでチェックされます。デフォルトで、サンプルには最初の行が含まれています。[Head sample] (ヘッドサンプル)といいます。また、行はランダムで選択できます。[Random sample] (ランダムサンプル)といいます。
- データの妥当性と完全性: レコードがセマンティックタイプに対して確認されて、フィールドが有効か無効であることが判別されます。フィールドがセマンティックタイプに一致しない場合は、ネイティブタイプに対してチェックされます。
Talend Cloud Data InventoryのJDBC URLを使えば、Snowflakeのテーブル全体で有効性と完全性が計算されます。
Talend Cloud Data Inventoryのデータセットの概要では、Snowflakeテーブルのサンプルをプレビューし、有効なレコードと無効なレコードを取得できます。このサンプルには最大10,000レコードが含まれています。
カラムとデータセットヘッダーにあるデータクオリティバーは、テーブル全体のクオリティを表しています。
- Talend Trust Score: Snowflakeで、データセット全体の妥当性と完全性が計算されます。Talend Cloud Data Inventoryでは、データセットの概要からTalend Trust Scoreの推移だけでなく、履歴も確認できます。
また、データセットリストやデータコンソールからTalend Trust Scoreを取得することもできます。
-
- サンプルはTalend Cloud Data Inventoryに送信され、データセット全体のTalend Trust Scoreが次のように計算されます。
- Snowflakeでテーブル全体に対し、妥当性と完全性がネイティブに計算されます。データクオリティルールのコンプライアンスもテーブル全体で実行されます。
- Talend Cloud Data Inventoryでは人気度、検索性、使用状況が計算されます。各軸の詳細については、Talend Trust Score™を確認をご覧ください。
以上で、お使いのデータセットに対し、5つの軸を持つTalend Trust Scoreが完成します。