メタデータを収集
メタデータの収集とは、すべてのメタデータをデータソースから集めることです。
メタデータの収集はTalend Data Catalogブリッジを使って行います。
ブリッジはプラットフォーム専用のコネクターです。特定のドライバーを使ってデータソースシステムに接続し、メタデータを収集します。
情報メモ注: <TDC_HOME>\TalendDataCatalog\tomcat\sharedフォルダーに事前にインストールされているデータベースドライバーはTalend Data Catalogリポジトリーデータベースに接続するためのもので、収集のためのものではありません。メタデータを収集するためには、データソースシステムに接続するドライバーをインストールし、そのドライバーのロケーションパラメーターを更新する必要があります。詳細は、メタデータをインポートをご覧ください。
次のテーブルでは、メタデータの収集元となるデータソースのタイプを説明しています。このタイプはお使いのエディションによって異なります。
Talend Data Catalog | Standard | Advanced | Advanced Plus |
---|---|---|---|
サポート対象のデータストア技術から収集 | |||
サポート対象のデータモデルツールから収集 | |||
DI、ETL、ELTツールによるデータ統合 | |||
Talend Data Integration、Talend MDM、Talend Data Preparationから収集 | |||
サポート対象のデータ統合ツールから収集 | |||
SQLスクリプトとその他のコードによるデータ統合 | |||
HiveQLスクリプトから収集 | |||
サポート対象のSQLスクリプトから収集 | |||
ビジネスインテリジェンス(BIレポート) | |||
TableauまたはQlikから収集 | |||
サポート対象のビジネスインテリジェンスツールから収集 | |||
サポート対象のメタデータ管理ツール(Apache AtlasやCloudera Navigatorなど)から収集 | |||
ビジネスアプリケーション | |||
Salesforceから収集 | |||
サポート対象のビジネスアプリケーションツール(SAP Business Warehouse 4 HANAなど)から収集 |
ブリッジの詳細は、Talend Help CenterでTalend Data Catalogブリッジを参照してください。
メタデータを収集する前に
抽出が適切に行われるよう、メタデータの収集に先がけて、メタデータがある場所、抽出に必要なテクノロジー、従うべきプロセスを分析することが重要です。
外部形式のメタデータソースに対して適切な接続があることを確認します。
補助的リソースに完全にアクセスできることを確認します。このリソースは接続先とする外部形式よって異なります。
Talend Data Catalogプロジェクトでメタデータを収集する場合は、特定の順序に従う必要があります。
- オペレーショナルデータソースなどのソースデータソースを識別する。
- ETLやELTなどのデータ変換プロセスを識別する。
- ビジネスインテリジェンスシステムを識別する。
- 既存の概念モデルを識別する。
- ブリッジを設定し、各システムのメタデータを収集する。
また、ラベル化されたフォルダー(メタデータの各カテゴリーなど)でメタデータリポジトリーを整理する必要もあります。
ファイルシステムを参照
多くのインポート操作ではアプリケーションサーバーのファイルをポイントする必要があります。
Talend Data Catalogを設定する場合は、参照リストに含めるファイルシステムの正確なロケーションを指定することが必要です。
このロケーションはSetup.batかコマンドラインを使って指定できます。
参照可能であるドライブはconf.propertiesファイルによって制御されます。
インポート済みモデルとカスタムモデル
リポジトリーには次の2種類のモデルがあります。
- インポートされたモデルは、モデル収集プロセスを通じて入力されるインポートブリッジに関連付けられているモデルです。これらのモデルはテクニカルモデルと呼ばれます。ビジネスアプリケーションやビジネスインテリジェンス(BI)ツールからインポートされた場合は、ビジネスモデルであるとも考えられます。
- カスタムモデルは、メタモデル内のカスタムモデルタイプをインスタンス化したものです。これらはビジネスモデルと呼ばれます。ドメインによってはテクニカルモデルと呼ばれることもあります。