tDBFSGetの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtDBFSGetを設定するために使われます。
標準のtDBFSGetコンポーネントは、ビッグデータファミリーとファイルファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Property type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。 [Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。 [Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。 |
[Use an existing connection] (既存の接続を使用) |
このチェックボックスを選択して、[Component List] (コンポーネントリスト)で、定義済みの接続詳細を再利用するHDFS接続コンポーネントをクリックします。 ジョブに親ジョブと子ジョブが含まれている場合、[Component List] (コンポーネントリスト)には同じジョブレベルの接続コンポーネントのみが表示されます。 |
[Endpoint] (エンドポイント) |
[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。 |
[Token] (トークン) |
[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、公式AzureドキュメンテーションからのPersonal access tokens (パーソナルアクセストークン)をご覧ください。 |
[DBFS directory] (DBFSディレクトリー) |
DBFSファイルシステムで使用するデータをポイントするパスを[DBFS directory] (DBFSディレクトリー)フィールドに入力します。 |
[Local directory] (ローカルディレクトリー) |
DBFSからコピーしたファイルを保管するローカルディレクトリーを参照または入力します。 |
[Overwrite file] (ファイルの上書き) |
新しいファイルで既存のファイルを上書きするオプションです。 |
[Include subdirectories] (サブディレクトリーを含める) |
選択した入力ソースタイプにサブディレクトリーが含まれる場合、このチェックボックスをオンにします。 |
[Files] (ファイル) |
[Files] (ファイル)エリアで以下のフィールドを完成させます。 - File mask (ファイルマスク): HDFSから選択するファイルの名前を入力します。正規表現を使用できます。 - [New name] (新しい名前): 取得したファイルに新しい名前を付けます。 |
[Die on error] (エラー発生時に強制終了) |
このチェックボックスを選択すると、エラー発生時にジョブの実行が停止されます。 エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。 |
詳細設定
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
使用方法
使用ルール |
このコンポーネントは、DBFS接続とデータ抽出を組み合わせます。したがって、ユーザーが定義したローカルディレクトリーにDBFSのデータをコピーするために単一コンポーネントサブジョブとして使われます。 スタンドアロンで実行され、他のコンポーネント用の入力フローや出力フローを生成しません。多くの場合、コンテキストに応じて、OnSubjobOkまたはOnComponentOkリンクを使ってジョブに接続します。 |