Apache Spark StreamingのtExtractDelimitedFieldsプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtExtractDelimitedFieldsを設定するために使われます。
Spark StreamingのtExtractDelimitedFieldsコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。
基本設定
| プロパティ | 説明 | 
|---|---|
| [Schema] (スキーマ)と[Edit Schema] (スキーマを編集) | 
 | 
| Prev.Comp.Columnリスト | データの抽出に必要なカラムを選択します。 | 
| [Die on error] (エラー発生時に強制終了) | このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。 | 
| [Field separator] (フィールド区切り) | 転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。 | 
| [CSV options] (CSVオプション) | このチェックボックスをオンにすると、[Escape char] (エスケープ文字)や[Text enclosure] (テキストエンクロージャー)などCSV固有のパラメーターが含まれます。  情報メモ重要: Sparkのバージョン2.0以降では特殊文字をエスケープする必要があるため、"\"と"""は "\\"と "\""となります。 | 
詳細設定
| プロパティ | 説明 | 
|---|---|
| [Custom Encoding] (カスタムエンコーディング) | 保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。 次に、リストから使用するエンコーディングを選択するか、[Custom] (カスタム)を選択して手動で定義します。 | 
| [Advanced separator (for number)] (高度な区切り文字:数値) | 数値に使用する区切りを変更する場合は、このチェックボックスをオンにします。デフォルトでは、桁区切りはコンマ(,)で、小数点区切りはピリオド(.)です。 | 
| [Trim all column] (カラムをすべてトリミング) | このチェックボックスをオンにすると、先行ホワイトスペースおよび後続ホワイトスペースがすべてのカラムから削除されます。このチェックボックスをオフにすると、[Check column to trim] (トリミングするカラムをチェック)テーブルが表示され、トリミングする特定のカラムを選択できます。 | 
| [Check columns to trim] (トリミングするカラムをチェック) | このテーブルは使用されているスキーマで自動入力されます。トリミングするカラムに対応するチェックボックスをオンにします。 | 
| [Check each row structure against schema] (スキーマに対して各行ストラクチャーをチェック) | このチェックボックスをオンにすると、各行のカラム総数がスキーマと一致するかどうかチェックされます。一致しない場合、コンソール上にエラーメッセージが表示されます。 | 
| [Check date] (日付をチェック) | このチェックボックスをオンにすると、日付形式が入力スキーマに対して厳密にチェックされます。 | 
| [Decode String for long, int, short, byte Types] (long、int、short、byte型の文字列をデコード) | 16進数文字列または8進数文字列を数値データ型(long、integer、short、またはbyte)に解析する場合は、このチェックボックスをオンにします。 | 
使用方法
| 使用方法のガイダンス | 説明 | 
|---|---|
| 使用ルール | このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 | 
| [Spark Connection] (Spark接続) |              [Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。              
 この接続は、ジョブごとに有効になります。 |