メイン コンテンツをスキップする 補完的コンテンツへスキップ

Azure ADLS Gen1に出力を書き込む

予想される映画データとリジェクトされた映画データをAzure ADLS Gen1フォルダーの別々のディレクトリーに書き込むよう、2つの出力コンポーネントが設定されます。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることを確認します。詳細は、Azureドキュメンテーションの[Create Databricks workspace] (Databricksワークスペースの作成) (英語のみ)を参照してください。
  • Azure Data Lake Storage Gen1システムへのアクセスに使用する認証情報に関するSparkプロパティが各行に追加されていることをご確認ください。
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
  • Azureアカウントを持っています。
  • 使用するAzure Blob Storageサービスが適切に作成されました。Azure Active Directorディレクトリーに、それにアクセスするための適切な権限があります。この件はAzureシステムの管理者に問い合わせて確認するか、Moving data from ADLS Gen1 to ADLS Gen2 using Azure Databricksで、「Granting the application to be used the access to your ADLS Gen1 folder」(使用するアプリケーションにADLS Gen1フォルダーへのアクセスを付与)というセクションの説明に従ってください。

手順

  1. tAzureFSConfigurationをダブルクリックして、その[Component] (コンポーネント) ビューを開きます。

  2. Azure FileSystemドロップダウンリストで、Azure Datalake Storageを選択します。Azure ADLS Gen2に固有のパラメーターが表示されます。
  3. [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、アプリケーションの登録時に生成され、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用する認証IDと認証キーをそれぞれ入力します。
  4. Azureポータルの[App registrations] (アプリの登録)ページにある[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーし、[Token endpoint] (トークンエンドポイント)フィールドに貼り付けます。
  5. out1リンクを受け取るtFileOutputParquetコンポーネントをダブルクリックします。

    [Basic settings] (基本設定)ビューがStudioの下側に開きます。

  6. [Define a storage configuration component] (ストレージ設定コンポーネントを定義する)チェックボックスを設定して、使用するADLS Gen2ファイルシステムに接続するために、tAzureFSConfigurationによって提供される設定を再利用します。
  7. [Folder/File] (フォルダー/ファイル)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオでは/ychen/movie_libraryです。映画のディレクターの名前を含むレコードがここに入ります。
  8. [Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
  9. 同じ操作を繰り返して、[reject] (拒否)リンクの受信に使用される他のtFileOutputParquet コンポーネントを設定しますが、[Folder/File] (フォルダー/ファイル)フィールドのディレクトリーを/ychen/movie_library/rejectに設定します。
  10. [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックしてビューを開きます。
  11. [Use local mode] (ローカルモードの使用)チェックボックスをオフにします。
  12. [Property Type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして、前にBig Dataプラットフォームに接続を設定で定義したmovie_libraryという接続メタデータを[Repository Content] (リポジトリーコンテンツ)リストから選択します。
  13. [OK]をクリックして選択を確定します。[Spark configuration] (Spark設定)タブのフィールドには、この接続メタデータのパラメーターが自動的に入力されます。
  14. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開きます。

完了すると、たとえばMicrosoft Azure Storage Explorerで、出力がADLS Gen1フォルダーに書き込まれていることを確認できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。