Apache Spark BatchのtJavaプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtJavaを設定するために使われます。
Spark BatchのtJavaコンポーネントは、カスタムコードファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
null不可能なプリミティブフィールドの入力値がnullの場合、そのフィールドを含むデータ行は拒否されることにご注意ください。 |
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Code] (コード) |
入力リンクからのRDDを処理するため、または新しいRDDをこの入力リンクから作成するためのJavaコードを入力します。 スキーマ、リンクとコンポーネント名を利用してカスタムコードを作成する必要があります。たとえば、このコンポーネントのラベルがtJava_1で、tJava_1への接続のラベルがrow1である場合、入力RDDのクラスはrow1Structで。入力RDD自体はrdd_tJava_1変数と共に利用できます。 詳細な手順は、このコンポーネントの[Code] (コード)フィールドに記載のデフォルトのコメントをご覧ください。 SparkのJava APIの詳細は、ApacheのSparkのドキュメント(https://spark.apache.org/docs/latest/api/java/index.html)をご覧ください。 |
詳細設定
Classes (クラス) |
[Basic settings] (基本設定)ビューの[Code] (コード)フィールドに書き込まれたコード内で使用する必要のあるクラスを定義します。 シリアライズで最終的な例外の発生を避けるために、[Code] (コード)フィールド内ではなく、このフィールド内で新しいクラスを定義することをお勧めします。 |
[Import] (インポート) |
インポートするJavaコード、および必要に応じて[Basic settings] (基本設定)ビューの[Code] (コード)フィールドで使用されている外部ライブラリーを入力します。 |
使用方法
使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 |
コードサンプル | [Basic settings] (基本設定)ビューの[Code] (コード)フィールドに次のコードを入力し、入力RDDにカスタム変換を使用して、出力RDDを作成します。mapInToOutは、[Advanced settings] (詳細設定)ビューの[Classes] (クラス)フィールドで定義するクラスです。
[Advanced settings] (詳細設定)ビューの[Classes] (クラス)フィールドに次のコードを入力して、mapInToOutクラスを定義します。
|
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |
[Limitation] (制限事項) |
SparkとJava言語の知識が必要です。 |