実行とBig Dataプロキシ実行
Remote Engine Gen2コンポーネントの用途は次のとおりです。
- Talend Cloud Pipeline Designer: ライブプレビュー、データセットへのアクセス、パイプラインの実行
- Talend Cloud Data Inventory: 接続 / データセット、サンプルの作成
- Talend Cloud Data Preparation: データセットへのアクセス
Remote Engine Gen2はDockerイメージなので、Dockerを実行している仮想マシンにデプロイするオプションと、選択したコンテナーオーケストレーション化サービスに(できれば)直接デプロイするオプションがあります。いずれにせよ、Remote Engine Gen2のセットアッププロセスは独自のDevOpsチームが完全に自動化できるだけでなく、そうすることが推奨されます。
IPPサーバーのデプロイメントには、次の2つのオプションがあります。
- [Spark local] (Sparkローカル) - シングルマシンでパイプラインを実行します。外部コンピューティングに依存しないものの、水平スケーリングは実行できません。このオプションはリファレンスアーキテクチャー図のIPPサーバーにあります。
- [Deploy on an edge node] (エッジノードにデプロイ) - ビッグデータクラスター(DatabricksやAWS EMRなど)にアクセスできるマシンです。実際の計算はクラスターで行われ、Remote Engine Gen2はプロセスのインスタンス化に使われるランナーです。このランナーが実行されるマシンは、ビッグデータクラスターへのアクセスに必要なネットワーク配置やセキュリティ権限などを備えているため、一般に「エッジノード」と呼ばれます。このオプションはリファレンスアーキテクチャー図のIPPエッジノードにあります。
十分な数のRemote Engineトークンが利用可能であれば、1つまたは両方のパターン、あるいは各パターンの複数のインスタンスに従ってデプロイするよう選択できます。たとえば、2つの異なるチームがソースとターゲットにアクセスできるようRemote Engine Gen2の特定の配置を必要とする場合は、各チームでIPPサーバーとIPPエッジノード(またはそのいずれか)を持つことができます。