Talend Cloud Pipeline Designerの概念
この図で定義を学習すれば、Talend Cloud Pipeline Designerの主な概念が理解しやすくなります。
- Remote Engine Gen2: Remote Engine Gen2はパイプラインを安全に実行できるセキュアな実行エンジンです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。
Remote Engine Gen2では以下のことが確認されています:
-
Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。
-
大量データを移動して計算する代わりに、データの局所性を高めることで最適なパフォーマンスを実現できます。
-
- Cloud Engine for Design: Cloud Engineは、ユーザーが処理エンジンをセットアップしなくてもパイプラインを簡単にデザインできる組み込みランナーです。このエンジンを使用すると、2つのパイプラインを並行して実行できます。データの高度な処理のためには、セキュアなRemote Engine Gen2をインストールすることをお勧めします。
- [Connection] (接続): 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は、一度設定すれば再利用できます。
- [Dataset] (データセット): データセットとはデータのコレクションのことです。データベーステーブル、ファイル名、トピック(Kafka)、ファイルパス(HDFS)などを指定できます。また、手動で入力してテストデータセットを作成し、テスト接続に保管すること、さらにはローカルファイルをデータセットとしてインポートすることもできます。複数のデータセットを同じシステムに接続し(1対多接続)、再利用可能な接続で保管できます。
- パイプライン: パイプラインは、着信データのリッスンを継続するプロセス(Talendジョブに類似)、ソースからデータを取得するパイプ、データセットから構成され、デスティネーションに送信されます。 以下のパイプラインを作成できます。
-
バッチ型または有限型 - データが収集され、データがすべて処理されるとパイプラインが停止します。
-
ストリーミング型または無限型 - パイプラインを停止しない限りデータの読み取りは停止されません。
-
- プロセッサー: プロセッサーとはパイプラインに追加できるコンポーネントのことで、受信されるバッチデータやストリーミングデータを変換し、変換されたデータがパイプラインの次のステップに返されるようにします。
- [Sample] (サンプル): お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。