tDeltaLakeRow
SQLBuilderツールを使って実際のDB ストラクチャーまたはデータに働きかけ(ただし、データ処理は行いません)、SQLステートメントを簡単に書くことができます。
tDeltaLakeRowは、JDBC APIを使うどのタイプのデータベースでも利用できるコンポーネントです。指定したデータベースに対して記述されたSQLクエリーを実行します。行のサフィックスは、コンポーネントでジョブデザインの出力を提供しないフローが実装されることを意味しています。
tDeltaLakeRowの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtDeltaLakeRowを設定するために使われます。
標準のtDeltaLakeRowコンポーネントは、データベースファミリーに属しています。
このフレームワーク内のコンポーネントは、すべてのサブスクリプションベースのTalend製品で利用できます。
基本設定
| プロパティ | 説明 |
|---|---|
| データベース |
目的のデータベースタイプをリストから選択し、[Apply] (適用)をクリックします。 |
| [Property type] (プロパティタイプ) | [Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。
[Use an existing connection] (既存の接続を使用)オプションで接続コンポーネントが選択されている場合、このプロパティは利用不可です。 |
| [Use an existing connection] (既存の接続を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
| [Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
| JDBC URL |
使用するDelta LakeデータベースのJDBC URL。先頭はjdbc:spark://です(既に表示されています)。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合、Delta LakeデータベースのJDBC URLは(既に入力されているとおり)jdbc:databricks//で始まります。 関連情報は、JDBC and ODBC drivers and configuration parametersでConfigure JDBC URLをご覧ください。 情報メモ注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブのJDBC URLがjdbc:databricks//で始まるよう、そのJDBC URLとその関連設定を手動でアップデートしなければならいことがあります。
|
| [Drivers] (ドライバー) |
必要なドライバーJARをロードするには、このテーブルに入力してください。これを行うには、テーブルの下の[+]ボタンをクリックして、必要に応じてドライバーJAR用行数を増やします。セルを選択し、セルの右側にある[...]ボタンをクリックして、[Module] (モジュール)ダイアログボックスを開くと使用するドライバーJARを選択できます。Delta Lakeデータベースでは、(既に入力されているとおり)SparkJDBC42-2.6.14.1018.jarというJARドライバーが使われます。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合、(既に入力されているとおり)atabricks-jdbc-{version_number}.jarドライバーが使われます。 詳細は、[Importing a database driver] (データベースドライバのインポート)をご覧ください。 情報メモ注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブでatabricks-jdbc-{version_number}.jarが使われるよう、ドライバーとその関連設定を手動でアップデートしなければならいことがあります。
|
| ドライバークラス |
指定したドライバーのクラス名を二重引用符で囲んで入力します。SparkJDBC42-2.6.14.1018.jarドライバーの場合、入力する名前はcom.simba.spark.jdbc.Driverです(既に表示されています)。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合は、databricks-jdbc-{version_number}.jarドライバーが使われ、入力されるドライバークラスは(既に入力されているとおり)com.databricks.client.jdbc.Driverとなります。 情報メモ注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブでcom.databricks.client.jdbc.Driverというドライバークラスが使われるよう、ドライバークラスとその関連設定を手動でアップデートしなければならいことがあります。
|
| [User Id] (ユーザーID)と[Password] (パスワード) |
データベースユーザー認証データ。関連情報は、JDBC and ODBC drivers and configuration parametersでUsername and password authenticationをご覧ください。 パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。 |
|
[Specify a data source alias] (データソースエイリアスを指定) |
このチェックボックスをオンにし、[Data source alias] (データソースエイリアス)フィールドが表示されたら、データソース設定で定義した共有接続プールを使用するために、 Talend Runtime側で作成したデータソースのエイリアスを指定します。このオプションは、 Talend Runtime内にジョブをデプロイして実行する時にのみ機能します。 コンポーネント自体のデータベース設定を使用する場合、データソース接続はコンポーネントの末尾で閉じることになります。これを防ぐには、データソースエイリアスを指定して、共有データベース接続を使用してください。 [Connection Component] (接続コンポーネント)ドロップダウンリストから、他の接続コンポーネントを選択した場合、このプロパティは、利用できません。 |
|
テーブル |
処理するテーブルの名前を入力します。 |
| [Query] (クエリー) |
スキーマ定義と一致するようデータベースクエリー文を指定します。この場合、フィールドの順序に特に注意が必要です。
ダイナミックスキーマ機能を使用する場合、SELECTクエリーには、選択したテーブルからすべてのカラムを取得するため*ワイルドカードを含める必要があります。 このコンポーネントはベクター検索機能をサポートしています。このオプションでは、Databricksで前に作成されたベクターインデックスを使ってクエリー条件を指定できます。 Databricksにおけるベクター検索の詳細は、該当するDatabricksのドキュメンテーションをご覧ください。 |
|
[Die on error] (エラー発生時に強制終了) |
このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。 エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。 エラーがスキップされる際、接続を使って、エラー行を収集できます。 |
詳細設定
| プロパティ | 説明 |
|---|---|
|
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
|
[Propagate record set] (レコードセットをプロパゲート) |
クエリーの結果を出力フローにプロパゲートする場合は、このチェックボックスをオンにします。表示される[use column] (使用カラム)リストから、クエリー結果を挿入するカラムを選択する必要があります。 このオプションにより、コンポーネントは、先行コンポーネントのスキーマとは異なるスキーマを持つことができます。さらに、クエリーのレコードセットを保持するカラムはオブジェクトタイプに設定する必要があり、このコンポーネントの後には通常、tParseRecordSetのコンポーネントが続きます。 |
| [Use PreparedStatement] (PreparedStatementの使用) |
プレパレーション済みのステートメントを使用してデータベースをクエリーする場合は、このチェックボックスをオンにします。表示される[Set PreparedStatement Parameters] (PreparedStatementパラメーターの設定) テーブルで、 [Query] (クエリー)フィールドで定義されたSQLステートメント内に疑問符?で表される各パラメーターの値を指定します。
このプロパティの関連ユースケースは、クエリーデータにPreparedStatementオブジェクトを使用をご覧ください。 |
| [Commit every] (コミットする間隔) |
ノードのバッチがデータベースにコミットされるまでに処理されているべき行数を指定します。 このオプションにより、トランザクションの質(ただしロールバックは含まない)、特に実行時のパフォーマンスの向上が保証されます。 |
| [Use query timeout] (クエリータイムアウトを使用) |
このチェックボックスをオンにすると、クエリーのタイムアウト期間を秒単位で設定できます。 |
グローバル変数
| 変数 | 説明 |
|---|---|
|
ERROR_MESSAGE |
エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。 |
|
QUERY |
処理されるクエリーステートメント。これはFlow変数で、文字列を返します。 |
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
| 使用ルール |
|
| [Dynamic settings] (ダイナミック設定) |
[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。 ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。ダイナミック設定とコンテキスト変数の詳細は、ダイナミックスキーマとコンテキストグループを作成し、その中でコンテキスト変数を定義をご覧ください。 |