データマッピングを使って作業
データフローのプロセスによっては、ブリッジを使って収集できないものがあります。そのようなプロセスがTalend Data Catalogでモデル化されていないと、来歴とインパクト分析の回答との間にギャップが生じ、お使いのシステムの物理的アーキテクチャーの全体像が不完全なものになってしまいます。
データマッピング仕様とは、一部のソースモデルからターゲットモデルのエレメントへというデータ「フロー」の高度な論理定義のことです。
このマッピングは、Webベースでシンプルなドラッグ&ドロップ型のマッピング仕様エディターを使って指定します。マッピングの定義には記述的なテキストを使います。また、操作エディターで疑似操作を定義することもできます。
- クエリーマッピング: 最も柔軟なマッピングです。ターゲットテーブル内のすべてのカラムについて、カラムごとのマッピング定義を行います。カラムには結合、フィルター、変換などを含めることができます。1つのターゲット分類子につき、1つのクエリーマッピングが定義されます。
クエリーマッピングを定義する時は、設定で定義されているどのデータストアモデルのターゲット分類子でも使用できます。同様に、どのデータストアモデルのソースでも使用できます。ソース分類子の数は多くてもよいため、同じマッピングにある複数のソースコンテンツが使用される場合もあります。
- バルクマッピング: カラム名や位置が一致するソーステーブルとターゲットテーブルで使用されます。フィルターも定義できるため、カラムレベルでのマッピングはシンプルで、名前または位置の一致となります。1つのターゲットスキーマと1つのソーススキーマにつき、1つのバルクマッピングが定義されます。
バルクマッピングやクエリーマッピングを始め、どのデータマッピングでもデータマッピングスクリプト形式に対して損失なくエクスポートまたはインポートできます。この形式は標準のデータベースSQLデータ操作言語(SQL DML)構文に基づいており、次の両方が含まれています。
- ポートされている技術(RDBMS、NoSQL、ファイルシステム)を忠実に表現しているソースデータストアとターゲットデータストアのデータ接続データモデル(例: データベーススキーマ、テーブル、カラム)
- そのようなデータストア間にあるデータフロー来歴のデータ統合(DI/ETL/ELT/CDC)
データマップスクリプト形式の構文は、サンプルファイル(<TDC_HOME>/TalendDataCatalog/conf/MIRModelBridgeTemplate/DataMappingScript/DataMappingScriptTutorial.sql)で詳細が説明されています。
データマッピングスクリプトは編集や変更が可能であるだけでなく、ネイティブモデルのインポートではサポートされていないDI/ETL/ELT/CDCツールをモデル化(シミュレーション)するためにゼロから生成することもできます。
データマッピングスクリプトは、独立したDIモデルとしてインポートしたり、データマッピングにインポートし直したりすることもできます。その結果、データフロー来歴はどちらのケースでも同じになります。
古いメタデータExcel形式(非推奨)と比較すると、新しいデータマッピングスクリプト形式には次のような利点が数多く含まれています。
- データマッピングスクリプト形式はデータマッピングに対する完全なラウンドトリップ(エクスポート/インポート)をサポートしていますが、これは古いメタデータExcel形式では不可能です。後者の場合、エクスポートはレポーティング用、インポートはブートストラッピング用です。
- 分類子/テーブルマップや機能/カラムマップに基づいている非常に冗長なメタデータExcel形式のファイルに比べ、データマッピングスクリプト形式のファイルは一般的にとてもコンパクトです。
- データマッピングスクリプト形式は、SQLベースのDI/ETL/ELT/CDCツールから生成しやすくなっています。
- データマッピングスクリプト形式はバルクマッピングとクエリーマッピングの両方をサポートしていますが、メタデータExcel形式はバルクマッピングの処理で大きな制限があります。
- データマッピングスクリプト形式は、メタデータExcel形式よりも多くソースおよびターゲットデータストアの技術(RDBMS、NoSQL、ファイルシステム)をサポートしています。
このような理由からデータマッピングスクリプトベースによるファイルのエクスポート/インポートが推奨されており、レガシーであるメタデータExcel形式は非推奨となりました。
。