Apache Spark StreamingのtMapプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtMapを設定するために使われます。
Spark StreamingのtMapコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。
基本設定
[Map Editor] (マップエディター) |
tMapのルーティングと変換のプロパティを定義できます。
入力エリア上部の[Property Settings] (プロパティ設定)ボタンをクリックすると、[Property Settings] (プロパティ設定)ダイアログボックスが表示され、そこで以下のパラメーターを設定できます。
|
リンクのマッピングはのように表示されます |
[Auto] (自動): デフォルト設定は曲線リンクです。 [Curves] (曲線): マッピングが曲線で表示されます。 [Lines] (直線): マッピングが直線で表示されます。最後のオプションを選ぶと多少パフォーマンスが良くなります。 |
[Preview] (プレビュー) |
プレビューはMapperデータのインスタントショットです。これは、Mapperプロパティにデータが入力されると使用可能になります。プレビューの同期は変更を保存した後にのみ有効です。 |
[Use replicated join] (反復結合を使用) |
複数の入力フロー間で反復結合を行うには、このチェックボックスをオンにします。このタイプの結合は、各ルックアップテーブルをメモリ内に複製することで、シャッフルとソートの追加手順を必要としないため、プロセス全体が高速化されます。 ルックアップテーブル全体がメモリに入ることを確認する必要があります。 |
使用方法
使用ルール |
これは通常、tMongoDBLookupInputなどのルックアップ入力コンポーネントと連携して、ルックアップフローを構成し、消費します。この状況では、[Reload at each row] (行ごとにリロード)または[Reload at each row (cache)] (行ごとにリロード - キャッシュ)を使用して、ルックアップフローからデータを読み取る必要があります。この方式により、重複レコードがtMapに送信される前にメモリに保存されることが防がれます。tMapがルックアップ入力コンポーネントで使用されるユースケースは、Sparkストリーミングジョブを使用してMongoDBでデータを読み取り書き込むをご覧ください。ストリーミングジョブでの[Reload at each row] (行ごとにリロード)または[Reload at each row (cache)] (行ごとにリロード - キャッシュ)は、ルックアップ入力コンポーネントのみがサポートしています。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |