Azure Data Lake Gen2接続を使い、Databricks Deltaテーブルからデータセットを作成して、それをTalend Cloud Data Preparationで使います。
手順
-
をクリックします。
-
開いたパネルで、作成する接続のタイプを選択します。
例
Azure Data Lake Storage Gen2
-
[Engine] (エンジン)リストでエンジンを選択します。
情報メモ注:
- データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
- Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
- 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
-
作成する接続のタイプを選択します。
ここでは、Azure Data Lake Storage Gen2を選択します。
-
Azure Data Lake Storage Gen2プロパティの説明に従って、接続のプロパティを入力し、Azure Data Lake Storage Gen2ファイルシステムにアクセスし、接続をチェックして、[Add dataset] (データセットを追加)をクリックします。
-
[Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付けます。
例
Databricks Delta table
-
必要なプロパティを入力して、ストレージアカウント内のDeltaテーブルにアクセスします。
-
[Format] (形式)で、Deltaを選択します。
-
[View sample] (サンプルを表示)をクリックして、データセットのプレビューを表示し、[Validate] (検証)をクリックして、データセット作成を完了させます。
-
[Databricks Delta table] (Databricks Deltaテーブル)に新しいプレパレーションを作成するためには、以下の操作を行います。
- [Dataset] (データセット)リストから、プレパレーションのソースマテリアルとして使いたいデータセットにマウスを重ね、Talend Cloud Data Preparationアイコンをクリックし、[Add] (追加)を選択して、そのデータで作業を直接開始します。
- プレパレーションリストで、[Add preparation] (プレパレーションを追加)ボタンをクリックします。開いたフォームで、プレパレーションに名前を付け、作成済みであるソースデータセットを選択して[Submit] (送信)をクリックします。
タスクの結果
プレパレーションが空のレシピで直接開くので、Databricks Deltaデータセットでプレパレーション操作の実行を開始できます。現在作業しているフォルダーにプレパレーションが作成されます。プレパレーションはプレパレーションリストに自動的に保存されます。また、データの準備時に行った変更もすべて自動的に保存されます。