データクラスを管理
データ分類は、カタログにインポート済みデータソースに含まれているエレメントの性質と目的を検出、理解、分類するのに役立ちます。
インポート済みオブジェクトを用語集で分類すれば、これらの技術的エレメントを誰もが理解できるビジネス用語で定義できます。データ分類はまた、これらのオブジェクト間にある隠れたリレーションシップを見つけるのにも役立ちます。
Talend Data Catalogでは、データプロファイリング機能とデータクラスを使って識別とデータ分類のプロセスを自動化できます。機密データも自動的に保護されます。
既存のデータクラスを表示して管理することもできますし、
で新たに作成することもできます。データクラスのタイプ
Talend Data Catalogは、機密データ(別名PII)を自動的に識別および分類するのに役立ちます。
- データ検出クラスは、事前定義済みの列挙、パターン、正規表現に基づいてデータの性質を自動的に検出します。データ検出分類では、データサンプリングとデータプロファイリングの機能を使います。
- メタデータ検出クラスはメタデータ属性でクラスを検出します。データ検出分類では特定できないデータ(一意なデータパターンを持たない生年月日など)を検出するのに役立ちます。メタデータ検出分類では、MQL機能が活用されています。
- 複合クラスは、複数のメタデータ検出クラスおよびデータ検出クラスに基づいています。
そのようなデータクラスは、機密データを非表示にするためのプロファイリングやマッチングに使用できます。データクラスとメタデータ検出クラスは、PIIとデータを非表示にするうえで同じインフラを共有します。
データ検出クラス分類とメタデータ検出クラス分類
データ検出分類では共通のデータパターンが自動的に検出されます。定義の提供にはあまり重点を置いていません。
メタデータ検出分類では権威ある共通の定義が提供されます。データ検出分類よりも柔軟性は高いものの、精度は下がります。
インポート済みオブジェクトのデータ分類
インポート済みオブジェクトには次の項目が含まれます。
- 1つの定義、またはデータで検出された分類
- 複数のメタデータで検出された分類(ビジネス用語とのリレーションシップ)
- 提案、承認、割り当てられた複数のデータ分類(データクラスとのリレーションシップ)
データ分類はできるだけ正確に行い、インポート済みオブジェクトに対する承認済みデータの分類や割り当て済みデータの分類は1つにすることをお勧めします。
セマンティックフローの来歴
Talend Data Catalogは、データやメタデータで検出された分類を使ってセマンティックフロー来歴の推測定義や関連エレメントのルックアップを実装しています。