メイン コンテンツをスキップする

Talend Studioで使用されているオントロジー

オントロジーとは、複数のカラムにあるデータについて存在し得るコンセプト、属性、関係を説明するものです。たとえば顧客のカラムはコンセプトで、生年月日と名前はそのコンセプトの属性です。オントロジーには、コンセプト、属性、属性のシノニムがリスト表示されます。

Talend Studioを伴うElasticsearchサーバーに保存されているオントロジーリポジトリーを使えば、分析するデータのタイプにとって最適と思われる分析済みインジケーターやパターンを再利用することで、知識を共有できるようになります。

Talend Studioは一連のメソッド([regex] (正規表現)[data dictionary] (データディクショナリー)[keyword dictionary] (キーワードディクショナリー))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、

  • user@talend.comのようなデータの場合、Talend Studioは正規表現に対して分析し、[EMAILADDRESS] (メールアドレス)であると判定します。
  • Johnの場合、Talend Studioはデータディクショナリーに対して分析し、[FIRSTNAME] (名)であると判定します。
  • 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンをディクショナリー内のキーワードに対して分析し、RoadADDRESSLINEであると判定します。

異なるビジネス標準(UBLとOAGI)をマージすることで、Elasticsearchサーバーでオントロジーがビルドされます。

  • Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリーを1つのジェネリックビジネス言語に統合しようとするOASISの取り組みによって作成されました。
  • Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。

マージの最終結果として、顧客、会社、地理、製品、ファイナンスなど、複数のドメインに適用される412のコンセプトに絞り込まれました。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。