Apache Spark BatchのtMap プロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtMapを設定するために使われます。
Spark BatchのtMapコンポーネントは、変換処理ファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。
基本設定
[Map Editor] (マップエディター) |
これにより、tMapルーティングと変換プロパティを定義できます。ただし、Spark Batchジョブでサポートされているのは[Load once] (一括ロード)ルックアップモデルのみです。 この[Load once] (一括ロード)ルックアップモデルの詳細は、ルックアップを処理の関連する説明をご覧ください。 入力エリア上部の[Property Settings] (プロパティ設定)ボタンをクリックすると、[Property Settings] (プロパティ設定)ダイアログボックスが表示され、そこで以下のパラメーターを設定できます。
|
リンクのマッピングはのように表示されます |
[Auto] (自動): デフォルト設定は曲線リンクです。 [Curves] (曲線): マッピングが曲線で表示されます。 [Lines] (直線): マッピングが直線で表示されます。最後のオプションを選ぶと多少パフォーマンスが良くなります。 |
[Preview] (プレビュー) |
プレビューはMapperデータのインスタントショットです。これは、Mapperプロパティにデータが入力されると使用可能になります。プレビューの同期は変更を保存した後にのみ有効です。 |
[Use replicated join] (反復結合を使用) |
複数の入力フロー間で反復結合を行うには、このチェックボックスをオンにします。このタイプの結合は、各ルックアップテーブルをメモリ内に複製することで、シャッフルとソートの追加手順を必要としないため、プロセス全体が高速化されます。 ルックアップテーブル全体がメモリに入ることを確認する必要があります。 |
[Max buffer size (nb of rows)] (最大バッファーサイズ:行数) | 処理されたデータに割り当てる物理メモリのサイズ(行数)を入力します。 |
使用方法
使用ルール |
このコンポーネントは、中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |