Apache Spark StreamingのtAggregateRowプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtAggregateRowを設定するために使われます。
Spark StreamingのtAggregateRowコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。
基本設定
プロパティ | 説明 |
---|---|
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
|
[Group by] (グループ基準) |
|
[Operations] (操作) |
|
詳細設定
プロパティ | 説明 |
---|---|
金融計算精度を使用します。これはSUMおよびAVG操作の最大精度です。オプションにチェックを入れるとチェックを入れない場合と比べてヒープメモリが増加し、処理が遅くなります。 |
財務精度を使うには、このチェックボックスをオンにします。これは最大精度ですが、より多くのメモリを消費し、処理が遅くなります。 情報メモ警告:
正確な結果を取得するために、出力にはBigDecimal型を使うことをお勧めします。 |
[Check type overflow (slower)] (タイプのオーバーフローをチェック :低速) |
データのタイプをチェックして、ジョブがクラッシュしないことを確認します。 |
[Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only float and double types. (slower) ] (ULP (Unit in the Last Place)をチェックし、Float型とDouble型のみ値が正しく増減することをご確認ください(低速)) |
Float型とDouble型で最も正確な結果を得られるようにするには、チェックボックスをオンにします。 |
使用方法
使用方法のガイダンス | 説明 |
---|---|
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |