Talend Cloud Data Inventoryの主な概念
このシナリオで使用されるTalend Cloud Data Inventoryの中心となる概念は次のとおりです。
- [Connection] (接続): 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
- データセット: データセットとはデータのコレクションのことです。データベーステーブル、ファイル名、トピック(Kafka)、ファイルパス(HDFS)などを指定できます。また、手動で入力してテストデータセットを作成し、テスト接続に保管すること、さらにはローカルファイルをデータセットとしてインポートすることもできます。複数のデータセットを同じシステムに接続し(1対多接続)、再利用可能な接続で保管できます。
- サンプル: お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
- セマンティックタイプ: カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
- Talend Trust Score: 複数のメトリックを1つのスコアに集計し、0~5のスケールで表すグローバルなクオリティ指標です。
- [Tag] (タグ): タグはポストイットを貼り付けるような要領でデータセットに適用でき、テキストをメタデータ情報としてTalend Cloud Data Inventoryオブジェクトに自由に追加できます。
- [Custom attributes] (カスタム属性): カスタム属性はデータセットに適用できます。そのため、事前定義済みルールセットに続いてメタデータ情報を追加したり、データベースの検索やソートに役立てたりできます。