Apache Spark BatchのtExtractDelimitedFieldsプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtExtractDelimitedFieldsを設定するために使われます。
Spark BatchのtExtractDelimitedFieldsコンポーネントは、変換処理ファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。変更を加えると、スキーマは自動的に組み込みになります。 |
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
|
Prev.Comp.Columnリスト |
データの抽出に必要なカラムを選択します。 |
[Die on error] (エラー発生時に強制終了) |
このチェックボックスを選択すると、エラー発生時にジョブの実行が停止されます。 |
[Field separator] (フィールド区切り) |
転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。 |
[CSV options] (CSVオプション) |
このチェックボックスを選択すると、[Escape char] (エスケープ文字)や[Text enclosure] (テキストエンクロージャー)などCSV固有のパラメーターが含まれます。
情報メモ重要: Sparkのバージョン2.0以降では特殊文字をエスケープする必要があるため、"\"と"""は "\\"と "\""となります。
|
詳細設定
[Custom Encoding] (カスタムエンコーディング) |
保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。 次に、リストから使用するエンコーディングを選択するか、[Custom] (カスタム)を選択して手動で定義します。 |
[Advanced separator (for number)] (高度な区切り文字:数値) |
数値に使用する区切りを変更する場合は、このチェックボックスを選択します。デフォルトでは、桁区切りはコンマ(,)で、小数点区切りはピリオド(.)です。 |
[Trim all column] (カラムをすべてトリミング) |
このチェックボックスを選択すると、先行ホワイトスペースおよび後続ホワイトスペースがすべてのカラムから削除されます。このチェックボックスをオフにすると、[Check column to trim] (トリミングするカラムをチェック)テーブルが表示され、トリミングする特定のカラムを選択できます。 |
[Check columns to trim] (トリミングするカラムをチェック) |
このテーブルは使用されているスキーマで自動入力されます。トリミングするカラムに対応するチェックボックスをオンにします。 |
[Check each row structure against schema] (スキーマに対して各行ストラクチャーをチェック) |
このチェックボックスを選択すると、各行のカラム総数がスキーマと一致するかどうかチェックされます。一致しない場合、コンソール上にエラーメッセージが表示されます。 |
[Check date] (日付をチェック) |
このチェックボックスを選択すると、日付形式が入力スキーマに対して厳密にチェックされます。 |
[Decode String for long, int, short, byte Types] (long、int、short、byte型の文字列をデコード) |
16進数文字列または8進数文字列を数値データ型(long、integer、short、またはbyte)に解析する場合は、このチェックボックスを選択します。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |