Apache Spark StreamingのtWindowプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtWindowを設定するために使われます。
Spark StreamingのtWindowコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントのストリーミングバージョンは、Talend Real-Time Big Data PlatformおよびTalend Data Fabricで使用できます。
基本設定
[Window duration] (ウィンドウ継続時間) |
適用するウィンドウ継続時間を定義する期間(ミリ秒)を引用符なしで入力します。 たとえば、Spark設定タブで定義されたバッチサイズが2秒の場合、ウィンドウ継続時間6秒は、このウィンドウが適用されるたびに3つのバッチが処理されることを意味します。 |
[Define the slide duration] (スライド処理時間の定義) |
[Define the slide duration] (スライド処理時間の定義)チェックボックスをオンにして、表示されるフィールドに、終了時にウィンドウが適用される時間をミリ秒で引用符なしで入力します。 たとえば、[Spark configuration] (Spark設定)タブで定義されたバッチサイズが2秒の場合、4秒のスライド期間は、ウィンドウが4秒ごとに適用されることを意味します。また、ウィンドウ継続時間が6秒の場合、2回のウィンドウアプリケーションの後、1つのバッチが重複します。 このチェックボックスをオフのままにすると、スライドの所要時間は[Spark configuration] (Spark設定)タブで定義されたバッチサイズと見なされます。 ウィンドウの期間とスライドの期間は、どちらも[Spark configuration] (Spark設定)タブで定義されているバッチサイズの倍数である必要があります。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントではデータスキーマは変更されませんが、特定のウィンドウを介してマイクロバッチの処理のペースが制御されます。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |