メイン コンテンツをスキップする 補完的コンテンツへスキップ

Databricks Deltaテーブルにプレパレーションを作成

Azure Data Lake Gen2接続を使い、Databricks Deltaテーブルからデータセットを作成して、それをTalend Cloud Data Preparationで使います。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    Azure Data Lake Storage Gen2
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは、Azure Data Lake Storage Gen2を選択します。
  5. Azure Data Lake Storage Gen2プロパティの説明に従って、接続のプロパティを入力し、Azure Data Lake Storage Gen2ファイルシステムにアクセスし、接続をチェックして、[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付けます。

    Databricks Delta table
  7. 必要なプロパティを入力して、ストレージアカウント内のDeltaテーブルにアクセスします。
  8. [Format] (形式)で、Deltaを選択します。
    [Format] (形式)フィールドのドロップダウンメニュー
  9. [View sample] (サンプルを表示)をクリックして、データセットのプレビューを表示し、[Validate] (検証)をクリックして、データセット作成を完了させます。
  10. [Databricks Delta table] (Databricks Deltaテーブル)に新しいプレパレーションを作成するためには、以下の操作を行います。
    • [Dataset] (データセット)リストから、プレパレーションのソースマテリアルとして使いたいデータセットにマウスを重ね、Talend Cloud Data Preparationアイコンをクリックし、[Add] (追加)を選択して、そのデータで作業を直接開始します。
    • プレパレーションリストで、[Add preparation] (プレパレーションを追加)ボタンをクリックします。開いたフォームで、プレパレーションに名前を付け、作成済みであるソースデータセットを選択して[Submit] (送信)をクリックします。

タスクの結果

プレパレーションが空のレシピで直接開くので、Databricks Deltaデータセットでプレパレーション操作の実行を開始できます。現在作業しているフォルダーにプレパレーションが作成されます。プレパレーションはプレパレーションリストに自動的に保存されます。また、データの準備時に行った変更もすべて自動的に保存されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。