Apache Spark StreamingのtWritePositionalFieldsプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtWritePositionalFieldsを設定するために使われます。
Spark StreamingのtWritePositionalFieldsコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントのストリーミングバージョンは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Output type] (出力タイプ) |
対象ファイルに出力するデータの種類を選択します。[byte] (バイト)を選択すると、データはバイト配列になります。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 このコンポーネントのスキーマは読み取り専用です。[Edit schema] (スキーマを編集)をクリックすると、スキーマを表示できます。 出力タイプがString (文字列)の場合、読み取り専用の単一カラムはmessageContentになります。このカラムは、tJMSOutputなどの出力コンポーネントに文字列を提供します。 出力タイプが[byte] (バイト)の場合、読み取り専用の単一カラムはserializedValueになります。このカラムは、tKafkaOutputなどの出力コンポーネントにバイト配列を提供します。 出力スキーマと読み取り専用カラムは、Row (行) > Output(出力)リンクから同じジョブの続くコンポーネントをクリックすると表示されます。[Component] (コンポーネント)ビューの[Basic settings] (基本設定)タブにスキーマが表示されます。 |
[Include header] (ヘッダーを含める) |
このチェックボックスを選択すると、カラムヘッダーがファイルに追加されます。 |
[Custom encoding] (カスタムエンコーディング) |
保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。 リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。このフィールドはデータベースデータ処理の必須フィールドです。サポートされるエンコーディングは、使用しているJVMに応じて異なります。詳細は、https://docs.oracle.com (英語のみ)をご覧ください。 |
形式 |
入力スキーマの各カラムの位置指定ファイルのデータ形式をカスタマイズします。
|
詳細設定
[Advanced separator (for number)] (高度な区切り文字:数値) |
数値に使用する区切りを変更する場合は、このチェックボックスを選択します。デフォルトでは、桁区切りはコンマ(,)で、小数点区切りはピリオド(.)です。 |
使用方法
使用ルール |
このコンポーネントは、中間ステップとして使用されます。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |