メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark StreamingのtDataprepRunプロパティ

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtDataprepRunを設定するために使われます。

Spark StreamingtDataprepRunコンポーネントは、Talend Data Preparationファミリーに属しています。

このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。

基本設定

URL

Talend Data Preparation WebアプリケーションのURLを二重引用符の間に入力します。

Talend Cloud Data Preparationを使用している場合は、対応するデータセンターのURLを使用してアプリケーションにアクセスします。たとえば、AWS USデータセンターの場合はhttps://tdp.us.cloud.talend.comです。

利用できるデータセンターのURLは、Talend CloudのリージョンとURLをご覧ください。

[Email] (メール)

Talend Data Preparation Webアプリケーションへのログインに使用するメールアドレスを二重引用符で囲んで入力します。

[Password] (パスワード)

[...]ボタンをクリックして、Talend Data Preparation Webアプリケーションのユーザーパスワードを二重引用符で囲んで入力します。

Talend Cloud Data Preparationを使用しており、

  • SSOが有効な場合は、アクセストークンをフィールドに入力します。
  • SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。

デフォルトのプレパレーション選択プロパティを使っている場合:

[Preparation] (プレパレーション)

[Preparation] (プレパレーション)フィールドを完成するには、[Choose an existing preparation] (既存のプレパレーションを選択)をクリックし、ポップアップダイアログボックスで以前に作成したプレパレーションの1つを選択します。このダイアログボックスには、各プレパレーションの名前、パス、作成者、最終変更日が表示されます。

このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したIDに対応するプレパレーションをTalend Data Preparationで編集できます。

[Version] (バージョン)

複数のバージョンのプレパレーションを作成した場合は、ジョブで使用するプレパレーションを1つ選択できます。[Version] (バージョン)フィールドを完成させるには、[Choose a Version] (バージョンを選択)をクリックして、プレパレーションの現在のバージョンを含む既存のバージョンのリストから選択します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

[Fetch Schema] (スキーマを取得)

このボタンをクリックすると、[Preparation] (プレパレーション)フィールドで定義したプレパレーションからスキーマを取得できます。

ダイナミックプレパレーション選択を使っている場合:

[Dynamic preparation selection] (ダイナミックプレパレーションの選択)

このチェックボックスをオンにして、コンテキスト変数を使ってプレパレーションパスとバージョンを定義します。プレパレーションはランタイムに動的に選択されます。

[Preparation path] (プレパレーションパス)

コンテキスト変数を使ってプレパレーションパスを定義します。パスは先頭に/があるなしにかかわらず、サポートされます。

[Preparation version] (プレパレーションバージョン)

コンテキスト変数で、使うプレパレーションのバージョンを定義します。プレパレーションバージョンは番号で参照されます。その結果、たとえばプレパレーションのバージョン#2を実行するには、予想値は"2"となります。現在のバージョンのプレパレーションを使う場合、予想値は "Current state"となります。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

[Fetch Schema] (スキーマを取得)

このボタンをクリックすると、[Preparation path] (プレパレーションパス)フィールドでコンテキスト変数によって定義したプレパレーションからスキーマを動的に取得できます。フェッチが成功すると、以前に設定されたスキーマが上書きされます。フェッチが失敗すると、現在のスキーマが保持されます。

詳細設定

[Encoding] (エンコーディング)

このリストからエンコーディングモードを選択します。リストから[Custom] (カスタム)を選択して、表示されたフィールドにエンコーディング方法を入力できます。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール

このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。

制限事項

  • tDataprepRunコンポーネントの設定後にデータセットをアップデートする場合、スキーマを再度取得する必要があります。

  • データセットのURL内でコンテキスト変数が使用されている場合は、ボタンを使ってTalend Data Preparationで直接プレパレーションを編集することはできません。

  • [Make as header] (ヘッダーとして作成)[Delete row] (行を削除)ファンクション、および単一セルの変更はtDatarepRunコンポーネントから無視されます。これらのファンクションは、単一の行またはセルだけに有効であるため、ビッグデータのコンテキストには対応しません。選択する既存のプレパレーションのリストで、不適合な処理が含まれるプレパレーションの横には警告が表示されます。

  • Talend Data Fabricの 7.0バージョンで、Spark 1.6を使う場合、tDataprepRunコンポーネントは、Clouderaの5.12または5.13バージョンでのみ機能します。Spark 2.0ではClouderaバージョンの制限はありません。

Yarnクラスターモード

[Yarn cluster mode] (Yarnクラスターモード)が選択されている場合、ジョブドライバーはローカルマシンではなく、Hadoopクラスターのマシンで実行されます。ジョブが実行されるクラスターのノードを事前に知ることはできないため、Talend Data Preparationサーバーからすべてのクラスターノードにアクセスできることを確認する必要があります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。