Apache Spark BatchのtHConvertFileプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtHConvertFileを設定するために使われます。
Spark BatchのtHConvertFileコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントは、ビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Storage] (ストレージ) |
HDFS環境に接続するには、[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、ドロップダウンリストの中から使用するコンポーネントの名前を選択します。 tHDFSConfigurationコンポーネントのドキュメンテーションで説明されているように、このオプションを有効にするには、使用するHDFS環境への接続をあらかじめ設定しておく必要があります。 [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにしない場合、ファイルをローカルでしか変換できません。 |
コンポーネントの設定 |
コンポーネントを設定するには、[...]ボタンをクリックし、[Component Configuration] (コンポーネントの設定)ウィンドウで次の手順を実行します。
|
[Input] (入力) |
[...]ボタンをクリックして、入力ファイル保存先へのパスを定義します。 引用符の間に手動でパスを入力することもできます。 |
Output (出力) |
[...]ボタンをクリックして、出力ファイル保管先へのパスを定義します。 引用符の間に手動でパスを入力することもできます。 |
アクション |
ドロップダウンリストから以下を選択します。
|
[Open Structure Editor] (ストラクチャーエディターを開く) |
[...]ボタンをクリックして、 Talend Data Mapper の[Structure Editor] (ストラクチャーエディター)で編集するストラクチャーを開きます。 詳細は、階層出力ストラクチャーエディターをご覧ください。 |
[Merge result to single file] (結果を1つのファイルにマージ) |
デフォルトでは、tHConvertFileはいくつかのパーツファイルを作成します。これらのファイルを1つのファイルにマージするには、このチェックボックスを選択します。 ソースとターゲットファイルの管理では、次のオプションを使います:
情報メモ警告: このオプションをAvro出力で使うと、無効なAvroファイルが作成されます。各部分はAvroスキーマヘッダーで始まるため、マージされたファイルには複数のAvroスキーマがあり、これは無効です。
|
詳細設定
[Die on error] (エラー発生時に強制終了) |
このチェックボックスを選択すると、エラー発生時にジョブの実行が停止されます。 このチェックボックスをオフにすると、エラーをスキップしてジョブの実行プロセスを続行できます。 |
[Use old Eclipse runtime] (古いEclipseランタイムを使用) |
古いEclipseランタイムをジョブに含める場合は、このチェックボックスを選択します。
情報メモ注: このオプションは、Talendが提供するR2024-03以降のTalend Studioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
|
使用方法
使用ルール | このコンポーネントは、HDFSストレージへの接続を定義するtHDFSConfigurationコンポーネントと一緒に使うか、ローカルファイルのみの変換用にスタンドアロンとして使います。 |
Talend Runtimeとの使用 | データマッピングコンポーネントが含まれているジョブやルートを Talend Runtimeと共にデプロイしたい場合は、まずTalend Data Mapper機能をインストールする必要があります。詳細は、 Talend Runtimeと共にTalend Data Mapperを使用をご覧ください。 |