Apache Spark BatchのtDataprepRunプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataprepRunを設定するために使われます。
Spark BatchのtDataprepRunコンポーネントは、Talend Data Preparationファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。
基本設定
URL |
Talend Data Preparation WebアプリケーションのURLを二重引用符の間に入力します。 Talend Cloud Data Preparationを使用している場合は、対応するデータセンターのURLを使用してアプリケーションにアクセスします。たとえば、AWS USデータセンターの場合はhttps://tdp.us.cloud.talend.comです。 利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。 |
[Email] (メール) |
Talend Data Preparation Webアプリケーションへのログインに使用するメールアドレスを二重引用符で囲んで入力します。 |
[Password] (パスワード) |
[...]ボタンをクリックして、Talend Data Preparation Webアプリケーションのユーザーパスワードを二重引用符で囲んで入力します。 Talend Cloud Data Preparationを使用しており、
|
デフォルトのプレパレーション選択プロパティを使っている場合:
[Preparation] (プレパレーション) |
[Preparation] (プレパレーション)フィールドを完成するには、[Choose an existing preparation] (既存のプレパレーションを選択)をクリックし、ポップアップダイアログボックスで以前に作成したプレパレーションの1つを選択します。このダイアログボックスには、各プレパレーションの名前、パス、作成者、最終変更日が表示されます。 |
|
このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したIDに対応するプレパレーションをTalend Data Preparationで編集できます。 |
[Version] (バージョン) |
複数のバージョンのプレパレーションを作成した場合は、ジョブで使用するプレパレーションを1つ選択できます。[Version] (バージョン)フィールドを完成させるには、[Choose a Version] (バージョンを選択)をクリックして、プレパレーションの現在のバージョンを含む既存のバージョンのリストから選択します。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 |
[Fetch Schema] (スキーマを取得) |
このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したプレパレーションからスキーマを取得できます。 |
ダイナミックプレパレーション選択を使っている場合:
[Dynamic preparation selection] (ダイナミックプレパレーションの選択) |
このチェックボックスをオンにして、コンテキスト変数を使ってプレパレーションパスとバージョンを定義します。プレパレーションはランタイムに動的に選択されます。 |
[Preparation path] (プレパレーションパス) |
コンテキスト変数を使ってプレパレーションパスを定義します。パスは先頭に/があるなしにかかわらず、サポートされます。 |
[Preparation version] (プレパレーションバージョン) |
コンテキスト変数で、使うプレパレーションのバージョンを定義します。プレパレーションバージョンは番号で参照されます。その結果、たとえばプレパレーションのバージョン#2を実行するには、予想値は"2"となります。現在のバージョンのプレパレーションを使う場合、予想値は "Current state"となります。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 |
[Fetch Schema] (スキーマを取得) |
このボタンをクリックすると、[Preparation path] (プレパレーションパス)フィールドでコンテキスト変数によって定義したプレパレーションからスキーマを動的に取得できます。フェッチが成功すると、以前に設定されたスキーマが上書きされます。フェッチが失敗すると、現在のスキーマが保持されます。 |
詳細設定
[Encoding] (エンコーディング) |
このリストからエンコーディングモードを選択します。リストから[Custom] (カスタム)を選択して、表示されたフィールドにエンコーディング方法を入力できます。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、Talend Studioユーザーガイドをご覧ください。 |
使用方法
使用ルール |
このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。 |
制限事項 |
|
Yarnクラスターモード |
[Yarn cluster mode] (Yarnクラスターモード)が選択されている場合、ジョブドライバーはローカルマシンではなく、Hadoopクラスターのマシンで実行されます。ジョブが実行されるクラスターのノードを事前に知ることはできないため、Talend Data Preparationサーバーからすべてのクラスターノードにアクセスできることを確認する必要があります。 |