Google Dataflowでのプレパレーションの実行
プレパレーションでGoogle Cloud Dataflowをビッグデータエクスポートランタイムとして設定できます。
情報メモ警告: これはベータサービスです。サポートは提供されていません。
デフォルトのランタイムではなく、この新しいランタイムを設定するには、Streams RunnerとSpark Job Serverの設定を行う必要があります。
始める前に
- Google Cloudの企業アカウントがあり、Google Cloudプロジェクトを既に作成していること。
- Talend Data Preparationがインストールされていること。
- Streams RunnerとSpark Job ServerがLinuxマシンにインストールされていること。
- Google Cloudでサービスアカウントを作成し、このサービスアカウントの認証情報を含んだ.jsonファイルをダウンロード済みであること。このファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。サービスアカウントには、ジョブをGoogle Cloud Dataflowで実行する権限、Google Cloud Storageのジョブに関わるバケットへのアクセス権(入力バケットと出力バケット、tempLocation用に設定されたバケットなど)が必要です。
手順
タスクの結果
プレパレーションをエクスポートする時は、データの入出力に応じて、デフォルトのビッグデータランタイムではなく、Google Cloud Dataflowランタイムが使用されます。入力と出力に応じて使用されるランタイムの詳細は、エクスポートオプションおよびランタイムマトリクスをご覧ください。