Talend Studioで使用されているオントロジー
オントロジーとは、複数のカラムにあるデータについて存在し得るコンセプト、属性、関係を説明するものです。たとえば顧客のカラムはコンセプトで、生年月日と名前はそのコンセプトの属性です。オントロジーには、コンセプト、属性、属性のシノニムがリスト表示されます。
Talend Studioを伴うElasticsearchサーバーに保存されているオントロジーリポジトリーを使えば、分析するデータのタイプにとって最適と思われる分析済みインジケーターやパターンを再利用することで、知識を共有できるようになります。
Talend Studioは一連のメソッド([regex] (正規表現)、[data dictionary] (データディクショナリー)、[keyword dictionary] (キーワードディクショナリー))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、
- user@talend.comのようなデータの場合、Talend Studioは正規表現に対して分析し、[EMAILADDRESS] (メールアドレス)であると判定します。
- Johnの場合、Talend Studioはデータディクショナリーに対して分析し、[FIRSTNAME] (名)であると判定します。
- 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンをディクショナリー内のキーワードに対して分析し、RoadをADDRESSLINEであると判定します。
異なるビジネス標準(UBLとOAGI)をマージすることで、Elasticsearchサーバーでオントロジーがビルドされます。
- Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリーを1つのジェネリックビジネス言語に統合しようとするOASISの取り組みによって作成されました。
- Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。
マージの最終結果として、顧客、会社、地理、製品、ファイナンスなど、複数のドメインに適用される412のコンセプトに絞り込まれました。