メイン コンテンツをスキップする 補完的コンテンツへスキップ

Google Dataflowでのプレパレーションの実行

プレパレーションでGoogle Cloud Dataflowをビッグデータエクスポートランタイムとして設定できます。

情報メモ警告: これはベータサービスです。サポートは提供されていません。

デフォルトのランタイムではなく、この新しいランタイムを設定するには、Streams RunnerSpark Job Serverの設定を行う必要があります。

始める前に

  1. Google Cloudの企業アカウントがあり、Google Cloudプロジェクトを既に作成していること。
  2. Talend Data Preparationがインストールされていること。
  3. Streams RunnerSpark Job ServerがLinuxマシンにインストールされていること。
  4. Google Cloudでサービスアカウントを作成し、このサービスアカウントの認証情報を含んだ.jsonファイルをダウンロード済みであること。このファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。サービスアカウントには、ジョブをGoogle Cloud Dataflowで実行する権限、Google Cloud Storageのジョブに関わるバケットへのアクセス権(入力バケットと出力バケット、tempLocation用に設定されたバケットなど)が必要です。

手順

  1. <Streams_Runner_installation_path>/conf/application.confファイルを開きます。
  2. Google Dataflowをランナータイプとして設定するには、次のいずれかの手順を実行します。
    • runner.typeパラメーターの値としてDataflowRunnerを設定します。
    • 次のコマンドを実行して$(?RUNNER_TYPE)環境変数を使用します: export RUNNER_TYPE=DataflowRunner
  3. 2つの必須パラメーターprojecttempLocationとその値を設定ファイルに追加して、ランナープロパティを設定します。

    これらの2つのパラメーターのほか、選択した他のパラメーターでランナー設定を完了します。使用可能な実行パラメーターの完全なリストについては、Googleのドキュメント (英語のみ)を参照してください。

  4. Spark Job Serverを設定するには、次のコマンドを実行してGOOGLE_APPLICATION_CREDENTIALS環境変数を追加します: export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

    この変数は、Google Cloudサービスアカウントの認証情報を含んだ.jsonファイルを参照する必要があります。この.jsonファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。

  5. サービスを再起動します。

タスクの結果

プレパレーションをエクスポートする時は、データの入出力に応じて、デフォルトのビッグデータランタイムではなく、Google Cloud Dataflowランタイムが使用されます。入力と出力に応じて使用されるランタイムの詳細は、エクスポートオプションおよびランタイムマトリクスをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。