HDFSファイルをプロファイリング
Talend StudioのProfilingパースペクティブから、Hive接続経由でHDFSファイルに対してシンプル統計インジケーターを使用してカラム分析を作成できます。
HDFSファイルにプロファイリング分析を作成するステップは以下のとおりです。
- Hadoopクラスターへの接続を作成します。
- Hiveサーバーへの接続を作成します。
HDFSファイルへの接続を作成する際、Hiveへの接続を同時に作成するよう画面上で指示されるため、このステップは必須ではありません。
-
HDFSファイルへの接続を作成します。
このステップに従ってHiveの 外部テーブルを作成できます。その結果、データはファイル内に残りますが、Hiveメタストア内にテーブルの定義が作成されます。これにより、Talend StudioはHive接続経由でファイル内のデータにSQLクエリーを実行できるようになります。
- Hiveテーブルの単純なインジケーターでカラム分析を作成します。
続いて、必要に応じて分析の設定を変更し、他のインジケーターを追加できます。後で、同じHiveテーブルを使用して、このHDFSファイルに別の分析を作成することもできます。
情報メモ注:
プロファイリングできるファイル形式は次のとおりです。
- TXT
- CSV
- Parquet (フラットストラクチャーの場合)
Hadoopクラスターへの接続の作成
Before you begin
- Profilingパースペクティブを選択済みであること。
- HadoopディストリビューションとそのHDFSへの適切なアクセス権があること。
Procedure
Results
Hiveへの接続の作成
Hiveへの接続は、Hadoopディストリビューション用に定義した接続から直接作成できます。ただし、HDFSファイルへの接続の作成の説明に従い、HDFSファイルに分析を作成する時に同時にHiveへの接続を作成するという別の手順もあります。
Before you begin
Hadoopディストリビューションへの接続が作成済みであること。
Procedure
Results
Hive接続の作成については、Hiveメタデータを一元管理をご覧ください。
HDFSファイルへの接続の作成
Before you begin
- Profilingパースペクティブを選択済みであること。
- Hadoopディストリビューションへの接続が作成済みであること。
Procedure
Results
HDFS接続の作成については、HDFSメタデータを一元管理をご覧ください。
Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法
Before you begin
- Profilingパースペクティブを選択済みであること。
- HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。
About this task
プロファイリングできるファイル形式は次のとおりです。
- TXT
- CSV
- Parquet (フラットストラクチャーの場合)