データクオリティの動作原理
Talend StudioのProfilingパースペクティブから、さまざまなデータソースで利用できるデータを検証し、そのデータに関する統計と情報を収集できます。
Talend Studioでのデータプロファイリングは、通常、次の順序で行われます。
- 分析を定義して実行するテーブルとカラムにアクセスするために、データベース、区切り付きファイルなどのデータソースに接続する。詳細は、データソースへの接続を作成をご覧ください。
- 利用可能なデータクオリティ分析を定義する。これには、データベースコンテンツの分析、カラム分析、テーブル分析、冗長性分析、コリレーション分析などがあります。これらの分析により、コンテンツ、ストラクチャー、極めて複雑なデータストラクチャーのクオリティを定義するデータプロファイリングプロセスが実行されます。分析結果は、各分析エディターの横にグラフで表示されるか、[Analysis Results] (分析結果)ビューでより詳細に表示されます。情報メモ注: データベースのデータのプロファイリングには、すべての分析タイプを使用できますが、区切り付きファイルのデータプロファイリングに使用できるのはカラム分析とカラムセット分析のみです。
- さまざまな分析に基づいてレポートを生成し、遠隔データベースで保存する。これらのレポートを使用して現在と履歴の統計を比較し、データクオリティの向上または劣化を判断できます。詳細は、レポートとはをご覧ください。
Talend Studioにはロックモードが搭載されています。このロックモードにより、項目を最初に開くユーザーはその項目をロックでき、"読み取り/書き込み"権限が得られます。その他のユーザーが同時に同じ項目を開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念をご覧ください。