メイン コンテンツをスキップする 補完的コンテンツへスキップ

Matillion - インポート

Availability-note AWS

ブリッジの要件

このブリッジ:
  • ドライバーを<TDC_HOME>/data/download/MIMB/にダウンロードするためには、https://repo.maven.apache.org/maven2/ やその他のツールサイトへのインターネットアクセスが必要です。

ブリッジの仕様

ベンダー Matillion
ツール名 Matillion
ツールバージョン 現行
ツールの Web サイト https://www.matillion.com/ (英語のみ)
サポートされている方法論 [データ統合] JSONファイルでのREST API経由のマルチモデル、データストア(物理データモデル)、ETL/ELT (ソースとターゲットのデータストア、変換来歴、式解析)
データプロファイリング
増分収集
マルチモデル収集
モデル選択のためのリモート リポジトリーの参照

仕様
ツール: JSONファイルでのREST API経由のMatillion / Matillionの現行バージョン
https://www.matillion.com/をご覧ください。
メタデータ: [データ統合] マルチモデル、データストア(物理データモデル)、ETL/ELT (ソースとターゲットのデータストア、変換来歴、式解析)
コンポーネント: MatillionETLバージョン11.2.0

免責事項
このインポートブリッジでは、インターネットに接続して次のサードパーティライブラリーをダウンロードする必要があります。
- オープンソースのサードパーティライブラリーのダウンロードはhttps://repo.maven.apache.org/maven2/などへ
- その他のサードパーティソフトウェア(データベース特定のJDBCドライバーなど)は該当するサイトへ

ダウンロードされたサードパーティライブラリーは、$HOME/data/download/MIMB/ に格納されています。
HTTPS が失敗した場合、インポートブリッジは HTTP を試します。
- インターネットへのアクセスにプロキシを使用している場合は、JREでそのプロキシを設定する必要があります(Miscellaneousパラメーターで -java.parametersオプションをご覧ください)。
- インポートブリッジではインターネットにフルにアクセスできない場合は、インターネットアクセスがある別のサーバーから$HOME/data/download/MIMB/ディレクトリーをコピーします。$HOME/bin/MIMB.sh (または.bat) -dというコマンドを使えば、すべてのブリッジで使用される全サードパーティライブラリーを一度にダウンロードできます。

このインポートブリッジを実行すると、ライセンス規約の責任、およびダウンロードしたサードパーティソフトウェアライブラリーによって生じる潜在的なセキュリティの脆弱性を受け入れることになります。

概要
Matillion ETLは、クラウドデータウェアハウスで作業する現代のデータチーム向けにデザインされたクラウドネイティブのデータ統合(DI/ETL)プラットフォームです。直感的なユーザーインターフェイスとローコード環境を提供し、複雑なデータパイプラインの構築・オーケストレーション・管理を実現します。https://docs.matillion.com/metl/docs/0000001/ https://www.matillion.com/products/etl/

Matillion ETLは、クラウドプラットフォーム(Snowflake、Amazon Redshift、DatabricksでのDelta Lakeなど)とのネイティブ統合をサポートし、スケーラビリティ、パフォーマンス、エンタープライズグレードの機能を提供します。

MatillionはETLデザイン用のユーザーインターフェイスを提供しており、ここでジョブデザインを定義できます。このジョブデザインは実行用SQLの生成に使用され、SQLトランザクションが実行時にログに記録されます。従来のETLツール(PowerCenterやTalendなど)のデータフローの来歴は、元のデザインの実行を実際の実行時パラメーターでエミュレートする実行時データ来歴グラフを生成することで作成されます。Matillion ETLはELTとして実装されており、来歴は生成されたSQLを解析することで生成されます。生成されたSQLは、デザイン内の任意のテーブル出力終了ステップ(右側の赤い部分)を選択し、次にSQLタブ([メタデータ]タブの横の下)を選択して[参照を展開]チェックボックスを選択すれば、Matillion UI内で確認できます。

このブリッジでは、Matillionジョブが正常に動作しており、過去7日以内に実行されている必要があります。そのような実行ログは、Matillion UIの[プロジェクト] > [タスク履歴]メニューで確認できます。ただし、ジョブは通常7日間の期間中、毎日実行されます。ただし、ジョブは通常7日間の期間中、毎日実行されます。重複を避けるため、ブリッジは類似のジョブを検出して来歴を解析します。ジョブが再デザインまたは変更された場合は、古いバージョンからの来歴が取得されないよう、適切なフィルターを設定してください(例: -task.history.started miscellaneousオプションを使用する)。

ブリッジは、サーバーのMatillion ETL REST APIを使って、そのSQLと実行時ログを取得します。ブリッジはこれらのアーティファクトを解析し、ソース/ターゲットのデータ接続、およびデータ接続間のカラムレベルのデータフロー来歴を特定します。https://docs.matillion.com/metl/docs/9907241/

要件
- Matillion ETLの認証要件:
API権限を持つ内部ユーザーが必要です。

以下のいずれかが必ず適用されるようにしてください:
- ロール。API - このロールによって、このインスタンスのMatillion APIへの直接アクセスが付与されます。
https://docs.matillion.com/metl/docs/8233018/#adding-users
- グループ。少なくとも[リーダー]ロールが割り当てられたグループに所属しています。
https://docs.matillion.com/metl/docs/2931106/
- 権限セット。ユーザーは、カスタム権限セットを介し、適切なAPI権限が手動で付与されています。
https://docs.matillion.com/metl/docs/2932106/

- Matillion ETL Metadata APIの要件:
- Matillion ETLバージョン1.54.7以降が必要です。
- Matillion ETLインスタンスのエンタープライズモードが必要です。
- Snowflake、DatabricksでのDelta Lake、Amazon Redshift用のMatillion ETLが必要です。
詳細は、https://docs.matillion.com/metl/docs/9907241/をご覧ください。

制限事項
現在判明している一般的な制限事項は、https://metaintegration.com/Products/MIMB/Help/#!Documents/mimbknownlimitations.htmlをご覧ください。

- Matillion ETL Metadata APIの制限事項:
7日以上経過した来歴メタデータは、Matillion ETLサーバーから毎日自動的に削除されます。
デフォルトでは、1つの環境あたり最大30,000件のタスク履歴レコードを取得できます。この制限に到達しないようにするには、-task.history.startedというMiscellaneousオプションを使って適切なフィルターを適用してください。

- ブリッジの制限事項:
Matillion ETLブリッジでは現在、以下のコンポーネントタイプがサポートされています:
- 変換の実行(変換)
- データベースクエリー(ロードコネクター)
- Google BigQuery (ロードコネクター)
- テーブルを作成(DDL)
- SQLスクリプト(DDL)


ブリッジ パラメーター

パラメーター名 説明 タイプ デフォルト 範囲
ホスト プロトコルも含めた、Matillion ETLインスタンスのホスト名または IP アドレス(http://127.0.0.1またはhttps://your-hostnameなど)。このアドレスは、Matillion ETL API Metadata Endpointへのアクセスに使われます。

値の例:
https://desktop-88ak0
http://127.0.0.1
STRING     必須
ユーザー名 Matillion ETLインスタンスへの認証に使われるユーザー名。

詳細は、[ブリッジの要件] -> [Matillion ETLの認証要件]をご覧ください。
STRING     必須
パスワード 指定されたユーザー名に対応するパスワード。この認証情報は、Matillion ETLインスタンスへのAPI リクエスト認証に使用されます。 パスワード     必須
グループ Matillion ETLインスタンス内の、セミコロンで区切られたグループ名のリスト。ブリッジの出力には、指定されたグループに関連付けられたジョブとメタデータのみが含まれます。

値の例:
default;finance;marketing
REPOSITORY_SUBSET      
プロジェクト 指定されたMatillionグループ内の、セミコロンで区切られたプロジェクト名のリスト。ブリッジは、これらのプロジェクトからメタデータのみを抽出します。

値の例:
default/customers_staging;finance/orders_distribute;marketing/reviews_development
REPOSITORY_SUBSET      
環境 選択されたプロジェクト内の、セミコロンで区切られた環境名のリスト。ブリッジは、これらの環境を使ってメタデータ抽出の範囲を指定します。

値の例:
default/customers_staging/Dev;finance/orders_distribute/Production;marketing/reviews_development/QA
REPOSITORY_SUBSET     必須
Miscellaneous はじめに
ダッシュで始まるMiscellaneousオプションを指定し、必要であればその後にパラメーターを追加できます。例:
- connection.cast MyDatabase1="MICROSOFT SQL SERVER"
該当する場合は複数回使用できるオプションもあります。例:
- connection.rename NewConnection1=OldConnection1 -connection.rename NewConnection2=OldConnection2;
オプションのリストは長い文字列になるため、${MODEL_BRIDGE_HOME}\data\MIMB\parametersにあり拡張子が.txtであるファイルからロードすることもできます。その場合、オプションはすべて、このパラメーターの唯一の値としてそのファイル内で定義されることが必要です。例:
ETL/Miscellaneous.txt

JAVA環境のオプション
-java.memory <Javaメモリの最大サイズ> (以前の-m)

64ビットJREではデフォルトで1G、またはconf/conf.properties内の設定に従います。例:
-java.memory 8G
-java.memory 8000M

-java.parameters <Javaランタイム環境コマンドラインオプション> (以前の-j)


-java.parameters -Dname=value -Xms1G
のように、-java.parametersの後ろのテキストはすべてそのままJREに渡されるため、このオプションはMiscellaneousパラメーター内の最後に来る必要があります。インターネットへのアクセスにプロキシを使用している場合は、必要なサードパーティのソフトウェアライブラリーをダウンロードできるよう、次のオプションを設定する必要があります(このオプションはhttps://repo.maven.apache.org/maven2/にアクセスするため、そして例外的にいくつかの他のツールサイトにアクセスするために不可欠です)。
注: プロキシは、(会社の)外部トラフィックをHTTPSで暗号化しながら、HTTPでプロキシにアクセスできる内部トラフィックを信頼しているものがほとんどです。この場合、HTTPSリクエストはHTTPでプロキシに到達し、プロキシはそれをHTTPSで暗号化します。
-java.parameters -java.parameters -Dhttp.proxyHost=127.0.0.1 -Dhttp.proxyPort=3128 -Dhttp.proxyUser=user -Dhttp.proxyPassword=pass

モデルインポートのオプション
-model.name <モデル名>

モデル名をオーバーライドをオーバーライドします。例:
-model.name "My Model Name"

-prescript <スクリプト名>

このオプションによって、ブリッジの実行前にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-prescript "script.bat arg1 arg2"

-postscript <スクリプト名>

このオプションによって、ブリッジが正しく実行された後にスクリプトを実行できるようになります。
スクリプトはbinディレクトリー(またはconf/conf.propertiesのM_SCRIPT_PATHで指定)にあり、拡張子が.batか.shであることが必要です。
スクリプトのパスに親ディレクトリーの記号( .. )を含めることはできません。
スクリプトは、成功した場合は終了コードである0を、失敗した場合は別の値を返します。
例:
-postscript "script.bat arg1 arg2"

-cache.clear

インポート前にキャッシュをクリアするため、増分収集せずにフルインポートを実行します。

モデルが変更されず、-cache.clearパラメーターが使われていない場合(増分収集)、新しいバージョンは作成されません。
モデルが変更されず、-cache.clearパラメーターが設定されている場合(増分ではなくフルソースインポート)、新しいバージョンが作成されます。

-backup <directory>

さらなるトラブルシューティングのため、入力メタデータを保存できるようにします。指定された<directory>は空であることが必要です。

-restore <ディレクトリー>

復元するバックアップ<ディレクトリー>を指定します。

データ接続オプション
使用するソースとターゲットのデータストアを参照するよう、通常はETL/DIツールとBIツールのインポートブリッジによってデータ接続が生成されます。これらのデータ接続はメタデータ管理ツールによって実際のデータストア(データベースやファイルシステムなど)への接続(メタデータスティッチング)に使われ、完全なエンドツーエンドのデータフローの来歴とインパクト分析が行われます。各データ接続の名前はインポートモデルごとに一意です。DI/BIデザインツールで使われているデータ接続名を可能な限り使用します。そうでない場合は、データベース/スキーマ名、ファイルシステムのパス、Uniform Resource Identifier (URI)など、短くても意味のある接続名が生成されます。次のオプションを使えば、接続を操作できます。これらのオプションによって、レガシーオプションである-c、-cd、-csが置き換えられます。

-connection.cast ConnectionName=ConnectionType

SQL解析のためにジェネリックデータベース接続(ODBCやJDBCなど)を正確なデータベースタイプ(ORACLEなど)にキャストします。例:
-connection.cast "My Database"="MICROSOFT SQL SERVER"
サポートされているデータストア接続タイプのリストは次のとおりです。
ACCESS
APACHE CASSANDRA
DB2/UDB
DENODO
GOOGLE BIGQUERY
HIVE
MYSQL
NETEZZA
ORACLE
POSTGRESQL
PRESTO
REDSHIFT
SALESFORCE
SAP HANA
SNOWFLAKE
MICROSOFT SQL AZURE
MICROSOFT SQL SERVER
SYBASE SQL SERVER
SYBASE AS ENTERPRISE
TERADATA
VECTORWISE
HP VERTICA

-connection.rename OldConnection=NewConnection

既存の接続を新しい名前に変更します。例:
-connection.rename OldConnectionName=NewConnectionName
既存の複数のデータベース接続の名前を変更し、新しい1つのデータベース接続に統合できます。例:
-connection.rename MySchema1=MyDatabase -connection.rename MySchema2=MyDatabase

-connection.split oldConnection.Schema1=newConnection

データベース接続を1つまたは複数のデータベース接続に分割します。
1つのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split MyDatabase
すべてのデータベース接続をスキーマごとの1つの接続に分割できます。例:
-connection.split *
データベースにスキーマ名を追加することで、データベース接続を明示的に分割し、新しいデータベース接続を作成できます。例:
-connection.split MyDatabase.schema1=MySchema1

-connection.map SourcePath=DestinationPath

ソースパスをデスティネーションパスにマッピングします。これは、異なるパスが同じオブジェクト(ディレクトリーまたはファイル)をポイントしている場合にファイルシステム接続にとって便利です。
Hadoopでは、あるプロセスがHDFSの完全パスで指定されたCSVファイルに書き込む一方、別のプロセスが、デフォルトのファイル名と拡張子を持つ相対パスで指定されている同じファイルによって実装されたHiveテーブル(外部)から読み取ります。例:
-connection.map /user1/folder=hdfs://host:8020/users/user1/folder/file.csv
Linuxでは、/users/johnや/users/paulといった複数のシンボリックリンクによって、/dataのような特定のディレクトリー(またはファイル)が参照されます。例:
-connection.map /data=/users/John -connection.map /data=/users/paul
Windowsでは、M:やN:といった複数のネットワークドライブによって、C:\dataのような特定のディレクトリーが参照されます。例:
-connection.map C:\data=M:\ -connection.map C:\data=N:\

-connection.casesensitive ConnectionName...

検出されたデータストアのタイプがこの設定(Microsoft SQL ServerやMySqlなど)をサポートしている場合は、指定された接続内のオブジェクト識別子に対し、大文字と小文字を区別しないデフォルトのマッチングルールがオーバーライドされます。例:
-connection.casesensitive "My Database"

-connection.caseinsensitive ConnectionName...

検出されたデータストアのタイプがこの設定(Microsoft SQL ServerやMySqlなど)をサポートしている場合は、指定された接続内のオブジェクト識別子に対し、大文字と小文字を区別するデフォルトのマッチングルールがオーバーライドされます。例:
-connection.caseinsensitive "My Database"

-connection.level AggregationLevel

外部接続の集計レベルを指定します。例: -connection.level catalog
サポートされている値のリスト:
server
catalog
schema (デフォルト)

MATILLIONのオプション

-task.history.started Date

指定された日付(06-18-2025のようにMM-dd-yyyy形式)以降に開始されたタスクのみが含まれるよう、入力データをすべてフィルタリングします。
値は、Unixエポック(UTC)からのミリ秒数に変換されます。
STRING      

 

ブリッジのマッピング

マッピング情報は利用できません

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。