データプロファイリングとデータクオリティ
Talend Data Qualityとは
Talend Studioは、複数の主要なエレメントで構成される総合的データクオリティおよびデータ管理ソリューションです。
- データを分析したり、分析結果を参照およびクエリーしたりできるProfilingパースペクティブとData Explorerパースペクティブ。
- データクオリティ専用のコンポーネントとルーチンのセットにアクセスできるIntegrationパースペクティブ。これによって、データクレンジング機能をデータ変換/統合プロセスに埋め込むことが可能です。
- Integrationパースペクティブから、データのクレンジングに使用される多数のData Qualityコンポーネントを含め、すべてのデータ統合に対応する何百ものコンポーネントにアクセスできます。
For detailed information about data quality specific components, see Data Quality components.
デフォルトで、この機能はTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。
コア機能
メタデータリポジトリー
Talend Data Qualityを使用すれば、データソースに接続してそのストラクチャー(カタログ、スキーマ、テーブル)を分析し、メタデータの説明をメタデータリポジトリーに保存できます。その後、このメタデータを使用して、メトリックスとインジケーターを設定できます。
詳細は、データソースへの接続を作成をご覧ください。
同様に興味深い特定の機能の1つがレポートデータベースで、作成されたレポートの履歴を保持し、チームメンバー間で結果を共有できます。詳細は、レポートデータベースを管理をご覧ください。
パターンとインジケーター
パターンとは、非常に複雑なデータのコンテンツ、ストラクチャー、クオリティを定義できる文字列セットのことです。Talend StudioのProfilingパースペクティブには次の2種類のパターンがリスト表示されます。
- 正規表現: 事前定義済みの正規のパターン
- SQLのパターン: LIKE句を使って追加するパターン
パターンの詳細は、パターンをご覧ください。
インジケーターは、ざまざまなパターンの実装を通じて達成された結果です。それらは、データマッチングと他の異なるデータ関連操作の結果を表しています。Talend StudioのProfilingパースペクティブには次の2種類のインジケーターがリスト表示されます。
- システムインジケーター: 事前設定済みのインジケータのリスト
- ユーザー定義インジケーター: ユーザーによって定義されたインジケーターのリスト
インジケーターの詳細は、インジケーターをご覧ください。