Apache Spark BatchのtHMapInputプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtHMapInputを設定するために使われます。
Spark BatchのtHMapInputコンポーネントは、変換処理ファミリーに属しています。
このコンポーネントは、ビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Storage] (ストレージ) |
HDFS環境に接続するには、[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、ドロップダウンリストの中から使用するコンポーネントの名前を選択します。 tHDFSConfigurationコンポーネントのドキュメンテーションで説明されているように、このオプションを有効にするには、使用するHDFS環境への接続をあらかじめ設定しておく必要があります。 [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにしない場合、ファイルをローカルでしか変換できません。 |
コンポーネントの設定 |
このコンポーネントを設定する前に、ダウンストリームコンポーネントを追加してtHMapInputコンポーネントにリンクし、ダウンストリームコンポーネントからスキーマを取得しておく必要があります。 コンポーネントを設定するには、[...]ボタンをクリックし、[Component Configuration] (コンポーネントの設定)ウィンドウで次の手順を実行します。
|
Input |
[...]ボタンをクリックして、入力ファイル保存先へのパスを定義します。 |
[Open Map Editor] (マップエディターを開く) |
[...]ボタンをクリックして[Structure Generate/Select] (ストラクチャーの生成/選択)ウィザードを開きます。 まず、作成するマップのタイプを選択できます。
情報メモ注: このオプションは、Talendが提供するR2023-10以降のStudioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
ここでは、スキーマを基に階層マッパーストラクチャーを自動生成したり、 既存の階層マッパーストラクチャーを選択したりできます。マップの入出力側双方でこの操作を実行してください。以下に、出力ストラクチャーのオプションを示します。
使用可能な複数の接続がTalend Studioによって検出されると、ウィンドウには両方の出力ストラクチャーオプションが表示され、複数の出力接続のサポート用のチェックボックスは表示されません。 入力接続または出力接続のいずれもない場合は、[Sructure Selection] (ストラクチャーの選択)ページが表示されます。 |
マップをスキーマ接続で同期化 |
次のいずれかの変更後にマップの入力ストラクチャーと出力ストラクチャーを自動的に再生成する場合は、このチェックボックスを選択します。
このチェックボックスを選択すると、マップを変更後にコンポーネントから開いた時に、このマップが自動的に同期されます。同期されない場合は、同期するかどうかを尋ねるダイアログが表示されます。
情報メモ注: 複数の接続を持つストラクチャーの場合、コンポーネント設定ウィザードで生成されたものと同じ形式のストラクチャーでなければマップを同期させることはできません。たとえば、複数の出力を持つフラット化マップを自動的に同期させることはできません。
|
Die on error (エラー発生時に強制終了) |
このチェックボックスは、デフォルトで選択されています。 エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。 チェックボックスをオフにすると、以下のオプションが使えます:
情報メモ注: 拒否の保存中に発生したエラーはログに記録され、プロセスはそのまま続行します。
|
詳細設定
[Use old Eclipse runtime] (古いEclipseランタイムを使用) |
古いEclipseランタイムをジョブに含める場合は、このチェックボックスを選択します。
情報メモ注: このオプションは、Talendが提供するR2024-03以降のTalend Studioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
|
使用方法
使用ルール |
このコンポーネントは、HDFSストレージへの接続を定義するtHDFSConfigurationコンポーネントと共に使います。 これは入力コンポーネントで、出力フローを必要とします。 |
Talend Runtimeとの使用 | データマッピングコンポーネントが含まれているジョブやルートを Talend Runtimeと共にデプロイしたい場合は、まずTalend Data Mapper機能をインストールする必要があります。詳細は、 Talend Runtimeと共にTalend Data Mapperを使用をご覧ください。 |