メイン コンテンツをスキップする 補完的コンテンツへスキップ

Azure DLS Gen2からAzure Synapseへのデータの一括ロード

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

以下の手順で作成されるパイプラインの例。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    ADLS Gen2
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここではADLS Gen2を選択します。
  5. Azure Data Lake Storage Gen2プロパティの説明に従って、接続のプロパティを入力し、Azure Data Lake Storage Gen2ファイルシステムにアクセスし、接続をチェックして、[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付けます。

    BKO Taxi On ADLS Gen2
  7. 必要なプロパティを入力してストレージアカウントにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
    Azure Data Lake Storage Gen2データセットの設定。
    この例では、マリ共和国バマコ市のタクシー料金に関するデータのCSVファイルが、Azureファイルシステムのtalend-fsという名前のtalendフォルダーに取得されます。自分のファイルシステムディレクトリーは、お持ちのAzure Storageアカウントの[ストレージエクスプローラー]ページで表示できます。
    [Storage Explorer] (ストレージエクスプローラー)ページにあるCSVファイル。
  8. 同じようにして、パイプラインの実行時に作成されるAzure Synapseテーブル(この例ではtaxi_data)を追加します。 Azure Synapseプロパティの説明に従って、接続のプロパティを入力します。
    新しいAzure Synapseデータセットの設定。
  9. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  10. パイプラインに意味のある名前を付けます。

    From ADLS Gen2 to Synapse - trip cost per distance covered
  11. [ADD SOURCE] (ソースを追加)をクリックして、開くパネルでソースデータセット(BKO taxi on ADSL Gen2)を選択します。
  12. [Add Processor] (プロセッサーを追加)をクリックし、パイプラインにプロセッサーを追加します。Type converterを追加すれば、文字列フィールドをint型のフィールドやdouble型のフィールドに変換できます。Field Selectorを追加すれば、一部のレコードの名前を変更できます。Aggregateプロセッサーを追加すれば、走行距離に応じた運賃を計算できます。
  13. オプションとして、最後のプロセッサーをクリックし、処理データをプレビューします。
    [Output data] (出力データ)プレビューで、データはDouble型のフィールドに表示されています。
  14. パイプラインで[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックしてパネルを開き、自分の出力データのロード先となるAzure Blobを選択します。
  15. デスティネーションに意味のある名前(たとえばbulk load to Synapseなど)を付けます。
  16. デスティネーションの[Configuration] (設定)タブで、テーブルで実行したい[Action] (アクション)([Bulk load] (一括ロード))を選択して、使用されるBlob接続を選択します。Azure Blob Storageの設定は、 Azure Blob Storageをご覧ください。
    デスティネーション項目の設定。
  17. [Save] (保存)をクリックして設定を保存します。
  18. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  19. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、Azure DLS Gen2に保存されていたタクシーの運賃情報は走行距離別に集計され、出力フローはパイプラインの実行時に定義したAzure Synapseテーブルにロードされます。
外部テーブルのフォルダーには、km単位の距離と総費用のデータがカラムとして含まれています。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。