メイン コンテンツをスキップする 補完的コンテンツへスキップ

パターンを使って区切り付きファイルでカラムセット分析を作成

この分析タイプでは、特定のカテゴリーに該当するレコードの数(行数、NULL値の数、重複を除いた一意値の数、重複値の数、空白フィールドの数など)でシンプル統計が行われます。

シンプル統計インジケーターの詳細は、シンプル統計をご覧ください。

また、この分析タイプにパターンを追加し、「すべて」のパターンにマッチする行数を単一の結果棒グラフに表示させることもできます。

区切り付きファイル内で分析するカラムのセットを定義

区切り付きファイル内にあるカラムのセットのコンテンツを分析できます。このセットは、定義されたテーブルやテーブル全体の一部のカラムしか表現していない場合があります。

その場合はJavaエンジンを使って、作成された分析を実行できます。

始める前に

Talend StudioProfilingパースペクティブで、区切り付きファイルへの接続が少なくとも1つ設定されていること。詳細は、データベースに接続をご覧ください。
情報メモ警告: この分析タイプを実行する時は、分析するカラムのセットにプライマリキーのカラムを含めないようにしてください。

手順

  1. [DQ repository] (DQリポジトリー)ツリービューで[Data Profiling] (データプロファイリング)を展開し、[Analyses] (分析) > [New analysis] (新しい分析)を右クリックします。 [Create new analysis] (新しい分析を作成)ウィザードが開きます。
  2. [Table] (テーブル) > [Column set analysis] (カラムセット分析)を選択し、[Create] (作成)をクリックします。
  3. 名前を入力します。
  4. 該当するフィールドで、カラム分析のメタデータ([Purpose] (目的)[Description] (説明)[Author] (作成者))を設定し、[Next] (次へ)をクリックして次のステップに進みます。
  5. [Connection] (接続)メニューで、[File Delimited] (区切り付きファイル)接続を選択します。
  6. 分析したいカラムのセットを参照し、[Next] (次へ)をクリックします。
  7. [Columns] (カラム)メニューで[Select columns] (カラムを選択)をクリックし、分析するカラムを選択します。
    [Columns] (カラム)メニューに、データがすべて表示されます。
    情報メモ注: [Table filter] (テーブルフィルター)フィールドや[Column filter] (カラムフィルター)フィールドに必要なテキストを入力すると、テーブルやカラムのリストをフィルタリングできます。リストには、入力したテキストに対応するテーブルまたはカラムのみ表示されます。
    この例では、区切り付きファイル内にあるこのサンプルでは、区切りファイル内の6セットのカラム、つまり口座番号(account_num), 教育(education),メールアドレス(email),ファーストネーム(fname), ラストネーム(lname)性別(gender)を分析します。行数、重複を除いた一意値の数、重複値の数を識別します。
  8. [Next] (次へ)をクリックします。

区切り付きファイル内の分析済みカラムにパターンを追加

カラム分析のように特定のパターンに対して各カラムを検証するのではなく、分析済みカラムにパターンを追加して全パターンに対して完全レコード(すべてのカラム)を検証できます。結果グラフは、使用されたパターンの総計を表す単一棒グラフとなります。このグラフには、「すべて」のパターンにマッチする行数が表示されます。

情報メモ警告: カラムセット分析で特定のパターンを使用できるようになる前に、Java用のパターン定義が存在しない場合はパターン設定で手動で設定する必要があります。設定しない場合は警告メッセージが表示され、Java正規表現の定義を設定するよう求められます。

始める前に

Talend Studio Profiling パースペクティブの分析エディターで、カラムセット分析が開かれていること。

手順

  1. [Indicators] (インジケーター)メニューで[Add pattern] (パターンを追加)をクリックし、追加するパターンを選択します。
    追加された正規表現は[Analyzed Columns] (分析済みカラム)ビューの分析カラムの下に表示され、[All Match] (すべてマッチ)インジケーターは[Indicators] (インジケーター)ビューの[Indicators] (インジケーター)リストに表示されます。
  2. [Next] (次へ)をクリックします。

区切り付きファイルでカラムセット分析を確定および実行

このカラムセット分析を実行する前に、インジケーターの設定、データフィルター、分析パラメーターを定義する作業が残っています。

始める前に

Talend StudioProfilingパースペクティブで、カラムセット分析が定義されていること。

手順

  1. [Analysis Parameters] (分析パラメーター)セクションで[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにし、現在の分析によって分析されるデータをローカルに格納します。
    [分析パラメーター]セクションでの[ドリルダウンを許可]チェックボックスの場所。
  2. [Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、アクセス可能にするデータ行数を入力します。
    情報メモ注: [Allow drill down] (ドリルダウンを許可)チェックボックスがデフォルトで選択され、インジケーターごとに表示される分析データの最大行数が50に設定されます。
  3. 分析を保存し、F6を押して実行します。

タスクの結果

エディターが分析結果に切り替わり、定義されたカラムセットの分析に使用したシンプル統計インジケーターに対応するグラフィカルな結果が表示されます。
[シンプル統計]セクションにある[シンプル統計]インジケーターに対応するグラフィカルな結果。

分析するカラムのセットのコンテンツにマッチさせるためにパターンを使う場合は、使用するパターンの総計に対してマッチ結果と非マッチ結果を表すグラフが表示されます。

[All Match] (すべてマッチ)セクションのパターンに対するマッチング値と非マッチング値のグラフィカルな結果。

パターンに対して分析データをフィルタリング

このタスクについて

区切り付きファイルの分析データをフィルタリングする手順は、データベース分析の場合と同じです。詳細は、パターンに対してデータをフィルタリングをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。