最初にすべきこと
Talend Studioでは、データベースカラムおよび区切り付きファイル内で使用可能なデータに関して検証し、統計と情報を収集できます。
Profiling パースペクティブから、次のことができます。
- カラム分析を最初からデザインし、分析設定を手動で定義する。
- 選択したタイプに適したインジケーターで自動的に設定されたカラム分析を作成する。
- [Semantic-aware Analysis] (セマンティック認識分析)ウィザードを使い、セマンティックリポジトリー内に収集された情報に基づいてカラム分析を自動的に設定する。詳細は、セマンティック認識分析を使用する手順をご覧ください。
手順
-
カラム分析を作成します:
- [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)を展開します。
- [Analysis] (分析)フォルダーを右クリックし、[New Analysis] (新しい分析)を選択します。
-
[Column Analysis] (カラム分析)フォルダーから、以下を選択します。
オプション
目的
[Basic Column Analysis] (基本的なカラム分析)
空のカラム分析を生成し、そこで分析するカラムを選択し、各カラムにインジケーターを手動で割り当てることができます。
詳細は、データベースカラムで基本分析を作成をご覧ください。
[Discrete Data Analysis] (離散データ分析)
[Bin Frequency] (Bin頻度)インジケーターおよびシンプル統計インジケーターで設定済みの数値データに対するカラム分析を作成します。必要に応じて連続データを離散Bin (範囲)に変換するために、分析をさらに設定するか、変更できます。
詳細は、離散データの分析をご覧ください。
[Nominal Values Analysis] (名義分析)
名義データに適したインジケーターで設定済みの名義データに対するカラム分析を作成します。すなわち、[Value Frequency] (値の頻度)、[Simple Statistics] (シンプル統計)、[Text Statistics] (テキスト統計)のインジケーターです。
これらの統計の結果の例は、カラム分析を確定および実行をご覧ください。
[Pattern Frequency Analysis] (パターン頻度分析)
[Pattern Frequency] (パターン頻度)、[Pattern Low Frequency] (パターン低頻度)、および行とNull値カウントインジケーターで設定済みのカラム分析を作成します。
この分析では、データ内のパターンを把握できます。頻度の高いパターンと低いパターンが示されるため、クオリティの問題をより容易に特定できます。
これらの統計の結果の例は、カラム分析を確定および実行をご覧ください。
[Semantic Discovery Analysis] (セマンティック検索分析)
データカラムのセマンティックカテゴリーを検討し、セマンティックリポジトリーから関連するコンセプトを使用した後で、データに最適なインジケーターとパターンで設定済みのカラム分析を作成します。
詳細は、セマンティック認識分析を使用する手順をご覧ください。
[Summary Statistics Analysis] (統計分析概要)
[Summary Statistics] (概要統計)インジケーター、行数およびNull値カウントインジケーターで設定済みの数値データに対するカラム分析を作成します。
これにより、範囲、四分位範囲、および平均値と中央値を計算することで、数値データのシェイプを把握できます。
集計統計のユースケースは、システムおよびユーザー定義インジケーターの設定およびカラム分析を確定および実行をご覧ください。
-
通常、1つ(または複数)のカラムでのデータプロファイリングは、次の順序で行われます。
次のタスク
データベースカラムで基本分析を作成セクションでは、データベースの1つ(または複数)のカラムの内容を分析する手順を説明します。
ファイルで基本的なカラム分析を作成セクションでは、区切り付きファイルのカラムを分析する手順を説明します。
Talend Studioにはロックモードが搭載されています。このロックモードにより、項目を最初に開くユーザーはその項目をロックでき、"読み取り/書き込み"権限が得られます。その他のユーザーが同時に同じ項目を開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念をご覧ください。