HDFSファイルをプロファイリング
Talend StudioのProfilingパースペクティブから、Hive接続経由でHDFSファイルに対してシンプル統計インジケーターを使用してカラム分析を作成できます。
HDFSファイルにプロファイリング分析を作成するステップは以下のとおりです。
- Hadoopクラスターへの接続を作成します。
- Hiveサーバーへの接続を作成します。
HDFSファイルへの接続を作成する際、Hiveへの接続を同時に作成するよう画面上で指示されるため、このステップは必須ではありません。
-
HDFSファイルへの接続を作成します。
このステップに従ってHiveの 外部テーブルを作成できます。その結果、データはファイル内に残りますが、Hiveメタストア内にテーブルの定義が作成されます。これにより、Talend StudioはHive接続経由でファイル内のデータにSQLクエリーを実行できるようになります。
- Hiveテーブルの単純なインジケーターでカラム分析を作成します。
続いて、必要に応じて分析設定を変更し、他のインジケーターを追加します。後で、同じHiveテーブルを使用して、このHDFSファイルに別の分析を作成することもできます。
情報メモ注:
プロファイリングできるファイル形式は次のとおりです。
- TXT
- CSV
- Parquet (フラットストラクチャーの場合)
Hadoopクラスターへの接続の作成
始める前に
- Profilingパースペクティブを選択済みであること。
- HadoopディストリビューションとそのHDFSへの適切なアクセス権があること。
手順
タスクの結果
Hiveへの接続の作成
Hiveへの接続は、Hadoopディストリビューション用に定義した接続から直接作成できます。ただし、HDFSファイルへの接続の作成の説明に従い、HDFSファイルに分析を作成する時に同時にHiveへの接続を作成するという別の手順もあります。
始める前に
Hadoopディストリビューションへの接続が作成済みであること。
手順
タスクの結果
Hive接続の作成については、Hiveメタデータを一元管理をご覧ください。
HDFSファイルへの接続の作成
始める前に
- Profilingパースペクティブを選択済みであること。
- Hadoopディストリビューションへの接続が作成済みであること。
手順
タスクの結果
HDFS接続の作成については、HDFSメタデータを一元管理をご覧ください。
Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法
始める前に
- Profilingパースペクティブを選択済みであること。
- HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。
このタスクについて
プロファイリングできるファイル形式は次のとおりです。
- TXT
- CSV
- Parquet (フラットストラクチャーの場合)