データをサンプリングおよびプロファイリング
Talend Data Catalogでは、データ収集プロセスで、ファイルとテーブルに含まれているデータのプロファイリングとサンプリングを実行できるオプションが提供されています。
収集プロセスを開始する前に、プロファイリングするレコードの数、そして後で視覚化用にサンプルとして保持するレコードの数を指定できます。
- データプロファイリングは、データからビジネスインサイトを見つけ出し、データに対する理解を深めるのに役立ちます。また、データを分類できるようにします。データプロファイリングでは、統計とグラフを使ってサマリーを作成します。これは、適切な詳細レベルで正しいデータを利用できることを確認するのに役立ちます。
- データサンプリングでは、データセットからサンプル行を提供します。
これらの情報は、ファイルやテーブルのオブジェクトページに移動したり、ファイルやテーブルの各フィールドやカラムを確認する時に利用できます。
サンプルデータとプロファイリング結果は、デフォルトでほとんどのユーザーに対して非表示になっています。該当するモデルで、[Data Viewing] (データの表示)機能を持つオブジェクトロールが割り当てられている必要があります。特定のモデルに関するサンプルデータとプロファイリング結果を非表示にすることもできます。
このアプリケーションでは、テーブル/ビューやカラムオブジェクトについて次のデータプロファイル情報を保存、および表示できます。
- カウント(標準カウント、および空白行や有効行などのカスタムカウント)
- 値(個別値とそのカウント)
- パターン(パターンとそのカウント)
- データ型(推測済みデータ型とそのカウント)