[Use local timezone] (ローカルタイムゾーンを使用) |
このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。
- このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。
- コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
|
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) |
このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:
- チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
- チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。
情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
|
[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) |
このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。 このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。
|
[Parallelize output files writing] (出力ファイルの書き込みを並列化) |
このチェックボックスを選択すると、Sparkバッチジョブが出力ファイルの書き込み時に複数のスレッドを並行して実行できるようになります。このオプションによって実行時間のパフォーマンスが改善されます。 このチェックボックスがオフのままになっていると、出力ファイルは1つのスレッド内で順次書き込まれます。
サブジョブレベルでは、各サブジョブが順次処理されます。サブジョブ内の出力ファイルのみが並列化されます。
このオプションは、次の出力コンポーネントが含まれているSparkバッチジョブでのみ使用できます:
- tAvroOutput
- tFileOutputDelimited ([Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)チェックボックスが選択されている場合のみ)
- tファイルOutputParquet
情報メモ重要: ジョブ実行中のメモリに関する問題を避けるため、このパラメーターを使用する前に、書き込まれるファイルのサイズと実行環境の容量を考慮する必要があります。
|