Big Dataプラットフォームに接続を設定

ビッグデータプラットフォームへの接続を[Repository] (リポジトリー)に設定すると、同じプラットフォームを使用するたびに接続を設定する必要がなくなります。

この例で使用するビッグデータプラットフォームは、Azure Data Lake Storage Gen2と共にDatabricks V5.4クラスターです。

始める前に

データブリックのSparkクラスターが正しく作成されていること。

詳細は、AzureドキュメンテーションでCreate Databricks workspaceを参照してください。
Azureアカウントを持っています。
Azure Data Lake Storage Gen2のストレージアカウントが適切に作成されており、適切な読み取りおよび書き込み権限が与えられていること。この種類のストレージアカウントの作成方法の詳細は、AzureドキュメントからAzure Data Lake Storage Gen2を有効にしてストレージアカウントを作成するを参照してください。

このタスクについて

最初にクラスター側でDatabricksクラスターを構成してから、Talend Studioで接続メタデータを設定する必要があります。

手順

Databricksクラスターページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。
例
[Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
[Spark] (スパーク)タブで、Azure Storageシステムへのアクセスに使用する認証情報に関するSparkプロパティを1行ごとに入力します:
- アカウントキーを提供するパラメーター：
```
spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>
```
  このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。
  
  使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。
- 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:
```
spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
```
- DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じ[Spark] (スパーク)タブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
  spark.serializer org.apache.spark.serializer.KryoSerializer
Sparkクラスターを再起動します。
Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。
Talend Studioの[Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。
コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。
[Name] (名前)や[Description] (説明)など、この接続に関する一般情報を入力し、[Next] (次へ)をクリックして[Hadoop configuration import wizard] (Hadoop設定インポートウィザード)を開きます。これを使用して、すぐに使える設定をインポートできます。
[Enter manually Hadoop services] (Hadoopサービスを手動で入力)チェックボックスをオンにして、作成するDatabricks接続の設定情報を手動で入力します。
[Finish] (終了)をクリックし、このインポートウィザードを閉じます。
From the [Distribution] (配布)リストから[Databricks]を選択し、[Version] (バージョン)リストから5.4 (Apache Spark 2.4.3, Scala 2.11を含む)を選択します。
[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
[Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。これらのプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。
このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。
[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
[DBFS dependencies folder] (DBFS依存項目フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリーを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。
[Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。

タスクの結果

新しい接続この例ではmovie_library という名前が、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)フォルダーの下に表示されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください