Azure ADLS Gen1に出力を書き込む

予想される映画データとリジェクトされた映画データをAzure ADLS Gen1フォルダーの別々のディレクトリーに書き込むよう、2つの出力コンポーネントが設定されます。

始める前に

DatabricksのSparkクラスターが正しく作成され、実行されていることを確認します。詳細は、Azureドキュメンテーションの[Create Databricks workspace] (Databricksワークスペースの作成) (英語のみ)を参照してください。

Azure Data Lake Storage Gen1システムへのアクセスに使用する認証情報に関するSparkプロパティが各行に追加されていることをご確認ください。

spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token

Azureアカウントを持っています。
使用するAzure Blob Storageサービスが適切に作成されました。Azure Active Directorディレクトリーに、それにアクセスするための適切な権限があります。この件はAzureシステムの管理者に問い合わせて確認するか、Moving data from ADLS Gen1 to ADLS Gen2 using Azure Databricksで、「Granting the application to be used the access to your ADLS Gen1 folder」(使用するアプリケーションにADLS Gen1フォルダーへのアクセスを付与)というセクションの説明に従ってください。

手順

tAzureFSConfigurationをダブルクリックして、その[Component] (コンポーネント) ビューを開きます。
例
Azure FileSystemドロップダウンリストで、Azure Datalake Storageを選択します。Azure ADLS Gen2に固有のパラメーターが表示されます。
[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、アプリケーションの登録時に生成され、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用する認証IDと認証キーをそれぞれ入力します。
Azureポータルの[App registrations] (アプリの登録)ページにある[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーし、[Token endpoint] (トークンエンドポイント)フィールドに貼り付けます。
out1リンクを受け取るtFileOutputParquetコンポーネントをダブルクリックします。

[Basic settings] (基本設定)ビューがStudioの下側に開きます。
[Define a storage configuration component] (ストレージ設定コンポーネントを定義する)チェックボックスを設定して、使用するADLS Gen2ファイルシステムに接続するために、tAzureFSConfigurationによって提供される設定を再利用します。
[Folder/File] (フォルダー/ファイル)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオでは/ychen/movie_libraryです。映画のディレクターの名前を含むレコードがここに入ります。
[Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
同じ操作を繰り返して、[reject] (拒否)リンクの受信に使用される他のtFileOutputParquet コンポーネントを設定しますが、[Folder/File] (フォルダー/ファイル)フィールドのディレクトリーを/ychen/movie_library/rejectに設定します。
[Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックしてビューを開きます。
[Use local mode] (ローカルモードの使用)チェックボックスをオフにします。
[Property Type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして、前にBig Dataプラットフォームに接続を設定で定義したmovie_libraryという接続メタデータを[Repository Content] (リポジトリーコンテンツ)リストから選択します。
[OK]をクリックして選択を確定します。[Spark configuration] (Spark設定)タブのフィールドには、この接続メタデータのパラメーターが自動的に入力されます。
[F6]を押してジョブを実行します。