メイン コンテンツをスキップする 補完的コンテンツへスキップ

HDFSファイルをプロファイリング

Talend StudioProfilingパースペクティブから、Hive接続経由でHDFSファイルに対してシンプル統計インジケーターを使用してカラム分析を作成できます。

HDFSファイルにプロファイリング分析を作成するステップは以下のとおりです。

  1. Hadoopクラスターへの接続を作成します。
  2. Hiveサーバーへの接続を作成します。

    HDFSファイルへの接続を作成する際、Hiveへの接続を同時に作成するよう画面上で指示されるため、このステップは必須ではありません。

  3. HDFSファイルへの接続を作成します。

    このステップに従ってHiveの 外部テーブルを作成できます。その結果、データはファイル内に残りますが、Hiveメタストア内にテーブルの定義が作成されます。これにより、Talend StudioはHive接続経由でファイル内のデータにSQLクエリーを実行できるようになります。

  4. Hiveテーブルの単純なインジケーターでカラム分析を作成します。

続いて、必要に応じて分析の設定を変更し、他のインジケーターを追加できます。後で、同じHiveテーブルを使用して、このHDFSファイルに別の分析を作成することもできます。

情報メモ注:
プロファイリングできるファイル形式は次のとおりです。
  • TXT
  • CSV
  • Parquet (フラットストラクチャーの場合)

Hadoopクラスターへの接続の作成

Before you begin

  • Profilingパースペクティブを選択済みであること。
  • HadoopディストリビューションとそのHDFSへの適切なアクセス権があること。

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで[Metadata] (メタデータ)を展開し、[Hadoop Cluster] (Hadoopクラスター)を右クリックし、[Create Hadoop Cluster] (Hadoopクラスターの作成)を選択します。
    Hadoop Clusterノードのコンテキストメニュー。
    ウィザードが表示され、クラスターへの接続を作成するステップが段階的に説明されます。
  2. ウィザードのステップに従って接続を作成し、Hadoopの設定情報を手動で入力するステップに進みます。
    Hadoopクラスターへの接続を作成する方法は、Hadoopメタデータを管理をご覧ください。
  3. ウィザードの最後のステップで[Check Services] (サービスを確認)をクリックし、接続が正しく行われたかどうかを確認してから、[Finish] (終了)をクリックします。

Results

新しいHadoop接続は、[DQ Repository] (DQリポジトリー)ツリービューの[Hadoop Cluster] (Hadoopクラスター)ノードの下にリスト表示されます。

Hiveへの接続の作成

Hiveへの接続は、Hadoopディストリビューション用に定義した接続から直接作成できます。ただし、HDFSファイルへの接続の作成の説明に従い、HDFSファイルに分析を作成する時に同時にHiveへの接続を作成するという別の手順もあります。

Before you begin

Profilingパースペクティブを選択済みであること。

Hadoopディストリビューションへの接続が作成済みであること。

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、使用するHadoop接続を右クリックし、[Create Hive] (Hiveの作成)を選択してウィザードを開きます。
    Hadoop接続のコンテキストメニュー。
  2. ウィザードのステップに従って接続を作成し、最後のステップで[Check] (確認)をクリックして接続が正しく行われたか確認します。
  3. [Finish] (終了)をクリックします。

Results

新しいHive接続は、[DQ Repository] (DQリポジトリー)ツリービューの[Hadoop Cluster] (Hadoopクラスター)ノードと[DB connections] (データベース接続)ノードの下にリスト表示されます。
Metadataノードの下にある新しいHive接続。

Hive接続の作成については、Hiveメタデータを一元管理をご覧ください。

HDFSファイルへの接続の作成

Before you begin

  • Profilingパースペクティブを選択済みであること。
  • Hadoopディストリビューションへの接続が作成済みであること。

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、使用するHadoop接続を右クリックし、[Create HDFS] (HDFSの作成)を選択します。
    ウィザードが表示され、HDFSからファイルスキーマを使用するステップが段階的に説明されます。
  2. ウィザードのステップに従って接続を作成し、最後のステップで[Check] (確認)をクリックして接続が正しく行われたか確認します。
  3. [Finish] (終了)をクリックします。

Results

新しいHDFS接続は、[DQ Repository] (DQリポジトリー)ツリービューのHadoop接続の下にリスト表示されます。
Metadataノードの下にある新しいHDFS接続。

HDFS接続の作成については、HDFSメタデータを一元管理をご覧ください。

Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法

Before you begin

  • Profilingパースペクティブを選択済みであること。
  • HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。

About this task

プロファイリングできるファイル形式は次のとおりです。
  • TXT
  • CSV
  • Parquet (フラットストラクチャーの場合)

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、使用するHDFS接続を右クリックし、[Create Simple Analysis] (単純分析の作成)を選択します。
    ダイアログボックスが開き、接続のHDFSスキーマがリスト表示されます。
    接続にあるHDFSスキーマの概要。
  2. プロファイリングを行うファイルのチェックボックスをオンにします。
    Creation statusカラムに[Success] (成功)と表示されるまで待ちます。
    情報メモNote: 作成するHiveテーブルは、ファイルではなくフォルダーに基づくものです。したがって、ストラクチャーが異なるファイルは選択しないでください。
  3. [Check Connection] (接続をチェック)をクリックして接続ステータスを確認し、[Next] (次へ)をクリックして次のステップに進みます。選択したファイルのスキーマがリスト表示されます。
    選択済みファイルのスキーマの概要。
  4. 必要に応じてスキーマを編集します。
    スキーマにDateカラムがある場合は、日付パターンを必ず正確に設定してください。設定に間違いがあるとNullが返されます。
  5. [Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューで、Hive接続のHDFSスキーマを示すテーブルを作成できます。
  6. Optional: 必要に応じて、テーブルに新しい名前を入力します。テーブル名には小文字を使用してください。Hiveはテーブルを小文字で保存します。
    [新しいテーブル名]フィールドにある小文字の名前の例。
  7. 以下のいずれかを行います:
    • [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。

      テーブルを作成する前に、少なくとも1つのHive接続が正しく設定されている必要があります。作成済みのHive接続が1つもない場合、[Select one existed Hive Connection] (既存のHive接続を1つ選択)オプションは無効になっています。

      ウィザードのこのビューで [Create a new Hive Connection] (新規Hive接続の作成)オプションを選択すると、Hive接続を作成できるようになります。

    • まず[Create a new Hive Connection] (新規Hive接続の作成)オプションを選択してHive接続を作成し、次にその新しい接続のテーブルを作成します。
  8. [Finish] (終了)をクリックします。
    [New Analysis] (新しい分析)ウィザードが開きます。
  9. 分析メタデータを設定し、[Finish] (終了)をクリックします。
    [データプレビュー]セクションと[分析済みカラム]セクションの概要。

    選択したHDFSファイルの新しい分析が自動的に作成され、分析エディター内に開きます。シンプル統計インジケーターがカラムに自動的に割り当てられます。

    分析は実際にHiveテーブルに適用されますが、外部テーブルメカニズムを使用してHDFSからのデータに基づいて統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したHDFSファイルは削除され、以後は分析を実行できません。

  10. [Refresh Data] (データを更新)をクリックしてカラムの内容を表示します。
    [Select Columns] (カラムの選択)タブを使用して、分析するカラムを変更できます。
  11. 必要に応じて、[Select Indicators] (インジケーターを選択)をクリックし、カラムにインジケーターまたは新しいパターンを追加します。
  12. 分析を実行し、エディターの[Analysis Results] (分析結果)セクションに結果を表示させます。
    [シンプル統計]インジケーター用のテーブルとグラフィック。

    カラム分析の詳細は、カラム分析をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。