Apache Spark BatchのtDataprepRunプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataprepRunを設定するために使われます。

Spark BatchのtDataprepRunコンポーネントは、Talend Data Preparationファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

URL	Talend Data Preparation WebアプリケーションのURLを二重引用符の間に入力します。 Talend Cloud Data Preparationを使用している場合は、対応するデータセンターのURLを使用してアプリケーションにアクセスします。たとえば、AWS USデータセンターの場合は`https://tdp.us.cloud.talend.com`です。利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。
[Email] (メール)	Talend Data Preparation Webアプリケーションへのログインに使用するメールアドレスを二重引用符で囲んで入力します。
[Password] (パスワード)	[...]ボタンをクリックして、Talend Data Preparation Webアプリケーションのユーザーパスワードを二重引用符で囲んで入力します。 Talend Cloud Data Preparationを使用しており、 SSOが有効な場合は、アクセストークンをフィールドに入力します。 SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。

URL

Talend Data Preparation WebアプリケーションのURLを二重引用符の間に入力します。

Talend Cloud Data Preparationを使用している場合は、対応するデータセンターのURLを使用してアプリケーションにアクセスします。たとえば、AWS USデータセンターの場合はhttps://tdp.us.cloud.talend.comです。

利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。

[Email] (メール)

Talend Data Preparation Webアプリケーションへのログインに使用するメールアドレスを二重引用符で囲んで入力します。

[Password] (パスワード)

[...]ボタンをクリックして、Talend Data Preparation Webアプリケーションのユーザーパスワードを二重引用符で囲んで入力します。

Talend Cloud Data Preparationを使用しており、

SSOが有効な場合は、アクセストークンをフィールドに入力します。
SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。

デフォルトのプレパレーション選択プロパティを使っている場合:

[Preparation] (プレパレーション)	[Preparation] (プレパレーション)フィールドを完成するには、[Choose an existing preparation] (既存のプレパレーションを選択)をクリックし、ポップアップダイアログボックスで以前に作成したプレパレーションの1つを選択します。このダイアログボックスには、各プレパレーションの名前、パス、作成者、最終変更日が表示されます。
	このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したIDに対応するプレパレーションをTalend Data Preparationで編集できます。
[Version] (バージョン)	複数のバージョンのプレパレーションを作成した場合は、ジョブで使用するプレパレーションを1つ選択できます。[Version] (バージョン)フィールドを完成させるには、[Choose a Version] (バージョンを選択)をクリックして、プレパレーションの現在のバージョンを含む既存のバージョンのリストから選択します。
[Schema] (スキーマ)と[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。
[Fetch Schema] (スキーマを取得)	このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したプレパレーションからスキーマを取得できます。

ダイナミックプレパレーション選択を使っている場合:

[Dynamic preparation selection] (ダイナミックプレパレーションの選択)	このチェックボックスをオンにして、コンテキスト変数を使ってプレパレーションパスとバージョンを定義します。プレパレーションはランタイムに動的に選択されます。
[Preparation path] (プレパレーションパス)	コンテキスト変数を使ってプレパレーションパスを定義します。パスは先頭に/があるなしにかかわらず、サポートされます。
[Preparation version] (プレパレーションバージョン)	コンテキスト変数で、使うプレパレーションのバージョンを定義します。プレパレーションバージョンは番号で参照されます。その結果、たとえばプレパレーションのバージョン#2を実行するには、予想値は"2"となります。現在のバージョンのプレパレーションを使う場合、予想値は "Current state"となります。
[Schema] (スキーマ)と[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。
[Fetch Schema] (スキーマを取得)	このボタンをクリックすると、[Preparation path] (プレパレーションパス)フィールドでコンテキスト変数によって定義したプレパレーションからスキーマを動的に取得できます。フェッチが成功すると、以前に設定されたスキーマが上書きされます。フェッチが失敗すると、現在のスキーマが保持されます。

詳細設定

[Encoding] (エンコーディング)	このリストからエンコーディングモードを選択します。リストから[Custom] (カスタム)を選択して、表示されたフィールドにエンコーディング方法を入力できます。

グローバル変数

グローバル変数	ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。変数の詳細は、Talend Studioユーザーガイドをご覧ください。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール	このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。
制限事項	tDataprepRunコンポーネントの設定後にデータセットをアップデートする場合、スキーマを再度取得する必要があります。データセットのURL内でコンテキスト変数が使用されている場合は、ボタンを使ってTalend Data Preparationで直接プレパレーションを編集することはできません。 [Make as header] (ヘッダーとして作成)と[Delete row] (行を削除)ファンクション、および単一セルの変更はtDatarepRunコンポーネントから無視されます。これらのファンクションは、単一の行またはセルだけに有効であるため、ビッグデータのコンテキストには対応しません。選択する既存のプレパレーションのリストで、不適合な処理が含まれるプレパレーションの横には警告が表示されます。 Talend Data Fabricの 7.0バージョンで、Spark 1.6を使う場合、tDataprepRunコンポーネントは、Clouderaの5.12または5.13バージョンでのみ機能します。Spark 2.0ではClouderaバージョンの制限はありません。
Yarnクラスターモード	[Yarn cluster mode] (Yarnクラスターモード)が選択されている場合、ジョブドライバーはローカルマシンではなく、Hadoopクラスターのマシンで実行されます。ジョブが実行されるクラスターのノードを事前に知ることはできないため、Talend Data Preparationサーバーからすべてのクラスターノードにアクセスできることを確認する必要があります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください