メイン コンテンツをスキップする 補完的コンテンツへスキップ

Hive経由でADLS Databricksファイルをプロファイリング

Talend StudioProfilingパースペクティブから、Hiveを介してADLS Databricksファイルでカラム分析を生成できます。

DatabricksでHiveに接続するには、JDBC接続が必要です。
  1. JDBCドライバーをダウンロードしてTalend Studioに追加します。
  2. ADLSクラスターにJDBC接続を作成します。
  3. テーブルとカラムに、単純なインジケーターを持つカラム分析を作成します。

続いて、必要に応じて分析の設定を変更し、他のインジケーターを追加できます。また、同じHiveテーブルを使い、このADLSファイルに別の分析を作成することもできます。

JDBCドライバーをダウンロードしてTalend Studioに追加

JDBCドライバーはjarファイルで、JDBC接続の作成に必要です。

Procedure

  1. Databricksドライバーのダウンロードページ (英語のみ)に移動して登録します。
  2. JDBCドライバーをダウンロードします。
  3. Talend Studioに移動します。
  4. メニューバーで、[Window] (ウィンドウ) > [Show View...] (ビューを表示...)とクリックします。
  5. [Show View] (ビューを表示)ダイアログボックスで、Modulesという語の入力を始めます。
  6. Talendの下で[Modules] (モジュール)を選択し、[Open] (開く)をクリックします。
    [ビューを表示]ウィンドウからのモジュール。
  7. [Modules] (モジュール)ビューで、[Import external jars] (外部jarをインポート)をクリックします。
  8. 目的のjarファイルを参照し、[Open] (開く)をクリックします。

Results

モジュールリストにJDBCドライバーが表示されています。

ADLS Databricks Gen2ファイルに接続

ADLS Databricks Gen2ファイルをプロファイリングするためには、外部テーブルを作成して、パラメーターを設定する必要があります。

Before you begin

外部テーブルを作成していること。詳細は、Microsoft Azureドキュメンテーション (英語のみ)をご覧ください。

外部テーブルは、tAzureFSConfigurationとtJavaの両コンポーネントを使って作成することもできます。

About this task

この手順はADLS Databricks Gen2特有のものです。

Procedure

  1. Databricksクラスターページの[Configuration] (設定)タブで、[Advanced options] (詳細オプション)を展開します。
  2. Sparkタブで、次のSparkプロパティを追加します。spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

    このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。

    使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

ADLS Databricksクラスターに接続を作成

Before you begin

About this task

DatabricksからS3システムにアクセスできるよう、S3固有のプロパティを追加の手順に従ってAmazon S3のDatabricksクラスターに接続します。

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、[Metadata] (メタデータ)を展開して[DB Connections] (DB接続)を右クリックします。
  2. [Create DB connection] (データベース接続の作成)をクリックします。
    データベース接続ウィザードが表示されます。
  3. 名前を入力して[Next] (次へ)をクリックします。他のフィールドはオプションです。
  4. [DB Type] (DBタイプ)JDBCを選択します。
  5. [JDBC URL]フィールドに、ADLS DatabricksクラスターのURLを入力します。このURLは次のようにして取得します。
    1. Azure Databricksに移動します。
    2. クラスターリストで、接続先とするクラスターをクリックします。
    3. [Advanced Options] (詳細オプション)セクションを展開し、[JDBC/ODBC]タブを選択します。
    4. [JDBC URL]フィールドのコンテンツをコピーします。URLの形式は、jdbc:spark://<server-hostname>:<port>/default;transportMode=http;ssl=1;httpPath=<http-path>;AuthMech=3となります。
      情報メモNote: トークンをより安全に暗号化できるよう、Talend Studio[Database Connection] (データベース接続)ウィザードにUIDパラメーターとPWDパラメーターを入力することをお勧めします。
  6. [Database Connection] (データベース接続)ウィザードを開きます。
  7. JDBC URLを貼り付けます。
  8. [Drivers] (ドライバー)リストにJDBCドライバーを追加します。
    1. [+]ボタンをクリックします。リストに新しい行が追加されます。
    2. この新しい行の横にある[…]ボタンをクリックします。[Module] (モジュール)ダイアログボックスが表示されます。
    3. [Platform] (プラットフォーム)リストでJDBCドライバーを選択し、OKをクリックします。[Database Connection] (データベース接続)ウィザードに戻ります。
  9. [Driver Class] (ドライバークラス)フィールドの横にある[Select class name] (クラス名の選択)をクリックし、com.simba.spark.jdbc4.Driverを選択します。
  10. [User Id] (ユーザーID)[Password] (パスワード)を入力します。
  11. [Mapping file] (ファイルのマッピング)[Mapping Hive] (Hiveのマッピング)を選択します。
  12. [Test Connection] (テスト接続)をクリックします。
    • テストが成功したら、[Finish] (終了)をクリックしてウィザードを閉じます。
    • テストが失敗した場合は設定を検証します。

Hive経由でADLS Databricksファイルにプロファイリング分析を作成

Hive経由でADLS Databricksクラスターに接続を作成した後は、特定のファイルでプロファイリング分析を作成できます。

Before you begin

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、[Metadata] (メタデータ) > [DB Connections] (データベース接続) > [JDBC connection] (JDBC接続) > [Tables] (テーブル)と展開します。
  2. [Columns] (カラム)フォルダーで、分析するカラムを選択して右クリックします
    情報メモTip: すべてのカラムで分析を作成する場合は、テーブル名を右クリックします。
  3. [Column Analysis] (カラム分析)にマウスを重ね、必要とする分析タイプを選択します。
    [Create New Analysis] (新しい分析を作成)ウィザードが表示されます。
  4. 名前を入力して[Finish] (終了)をクリックします。他のフィールドはオプションです。
    選択したADLSファイルの新しい分析が自動的に作成され、分析エディター内で開きます。選択した分析タイプに応じて、カラムに対してインジケーターが自動的に割り当てられます。

    分析はHiveテーブルに適用されますが、外部テーブルメカニズムを使い、ADLSからのデータで統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したADLSファイルは削除され、分析は実行できなくなります。

  5. 必要であれば次の操作を行います。
    • 分析するカラムを変更します。[Data Preview] (データプレビュー)タブで、[Select Columns] (カラムを選択)をクリックします。
    • インジケーターか新しいパターンをカラムに追加します。[Analyzed Columns] (分析済みカラム)タブで、[Select Indicators] (インジケーターを選択)をクリックします。
  6. 分析を実行し、結果をエディターの[Analysis Results] (分析結果)ビューに表示します。

What to do next

この分析でレポートを作成できます。特定の分析のレポートの作成をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。