Apache Spark BatchのtDeltaLakeInputプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDeltaLakeInputを設定するために使われます。
Spark BatchのtDeltaLakeInputコンポーネントは、テクニカルファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで利用できます。
基本設定
| プロパティ | 説明 |
|---|---|
| [Define how to save the dataset] (データセットを保存する方法を定義) |
データセットストレージを選択します:
|
| [Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
ターゲットファイルシステムへの接続に関する設定情報の提供で使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえばジョブにtS3Configurationコンポーネントをドロップした場合は、それを選択し、指定したS3ストレージシステムに結果を書き込めるようになります。 このフィールドは、[Basic settings] (基本設定)ビューで[Define the source of the dataset] (データセットのソースを定義する)ドロップダウンリストから[Files] (ファイル)を選択した時のみ利用可能です。 |
| [Property type] (プロパティタイプ) |
|
| [Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
|
| [Database] (データベース) | 使うDelta Lakeデータベースの名前を二重引用符で囲んで入力します。 このフィールドは、[Basic settings] (基本設定)ビューで[Define the source of the dataset] (データセットのソースを定義する)ドロップダウンリストから[Metastore] (メタストア)を選択した時のみ利用可能です。 |
| [Table] (テーブル) | 使うテーブルの名前を二重引用符で囲んで入力します。 このフィールドは、[Basic settings] (基本設定)ビューで[Define the source of the dataset] (データセットのソースを定義する)ドロップダウンリストから[Metastore] (メタストア)を選択した時のみ利用可能です。 |
| [Folder/File] (フォルダー/ファイル) |
ファイルシステムで使用するデータを参照するか、パスを入力します。 設定したパスがフォルダーを指す場合、このコンポーネントによりフォルダーに保管されているすべてのファイル(/user/talend/inなど)が読み取られます。サブフォルダーが存在する場合、[Spark configuration] (Spark設定)タブの[Advanced properties] (詳細プロパティ)テーブルでプロパティspark.hadoop.mapreduce.input.fileinputformat.input.dir.recursiveをtrueに設定しない限り、サブフォルダーは自動的に無視されます。
このフィールドに複数のファイルまたはディレクトリーを指定する場合は、パスをそれぞれコンマ(,)で区切ります。 参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。 このフィールドは、[Basic settings] (基本設定)ビューで[Define the source of the dataset] (データセットのソースを定義する)ドロップダウンリストから[Files] (ファイル)を選択した時のみ利用可能です。 |
| [SQL Query] (SQLクエリー) | データの取得に使用するSQLクエリーを入力します。 このフィールドは、[Basic settings] (基本設定)ビューで[Define the source of the dataset] (データセットのソースを定義する)ドロップダウンリストから[SQL Query] (SQLクエリー)を選択した時のみ利用可能です。 |
| [Specify Time Travel timestamp] (タイムトラベルタイムスタンプを指定する) | このチェックボックスをオンにして、使うデータセットのタイムスタンプ定義のスナップショットを読み取ります。 Deltalakeで使われる形式はyyyy-MM-dd HH:mm:ssです。 Delta Lakeは、ファイルのアップロード時間とこのファイルのメタデータタイムスタンプとの間にわずかな違いを体系的に作成します。データをフィルタリングする必要がある場合は、この違いに留意してください。 これらのプロパティは、[Define how to save the dataset] (データセットを保存する方法を定義)ドロップダウンリストで[Files] (ファイル)を選択した場合のみ利用できます。 |
| [Specify Time Travel version] (タイムトラベルバージョンを指定する) | このチェックボックスをオンにして、使うデータセットのバージョン管理されたスナップショットを読み取ります。 これらのプロパティは、[Define how to save the dataset] (データセットを保存する方法を定義)ドロップダウンリストで[Files] (ファイル)を選択した場合のみ利用できます。 |
Unity Catalogからデータセットを取得する場合は、以下のパラメーターでUnity Catalog関連情報を指定する必要があります:
|
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
| 使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 このDelta Lakeレイヤーは、Data Lakeシステムの上に構築されているため、Data Lakeシステムに対応する設定コンポーネント(tAzureFSConfigurationなど)を使用して、Data Lakeシステムの一部として接続されます。 |
| [Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |