メイン コンテンツをスキップする 補完的コンテンツへスキップ

個別値の抽出

始める前に

[Value Frequency] (値の頻度)インジケーターを使用するカラム分析が作成され実行されていること。

このタスクについて

Profilingパースペクティブで、カラム分析を作成し、カラムの個別値の中で最も頻出する値の数を計算できます。カラム分析を実行すると、値の頻度から個別値を出力ファイルに抽出する既製ジョブを生成できます。

これで、その他のデータ標準化プロセスの参照データセットとしてこの個別値を使用できるようになります。

以下の例では、MySQLデータベースでのpostal_codeカラムの分析がProfilingパースペクティブで作成および実行されています。

手順

  1. 分析エディターで、[Value Frequency] (値の頻度)インジケーターを右クリックします。
    [分析済みカラム]セクションからのインジケーターのコンテキストメニュー。
  2. [Generate Job] (ジョブを生成)を選択します。
    生成されたジョブでIntegrationパースペクティブが開きます。
    tMysqlInput、tAggregateRow、tFileOutputDelimitedの各コンポーネントを使って生成されたジョブ。
    データベースコンポーネントの基本設定は、カラム分析で使用したデータベース接続に従って定義済みです。
    tAggregateRowコンポーネントの基本設定は、postal_codeカラムの値の頻度から個別数をカウントするように定義済みです。
    tAggregateRowの基本設定の概要。
  3. オプション: さまざまな出力コンポーネントを使い、異なるタイプのファイルやデータベースにある個別値を再取得します。
  4. ジョブを保存し、F6を押して実行します。
    このジョブにより値の頻度から個別値が抽出され、定義した出力ファイルに書き込まれます。
    次に、データクオリティジョブでこのファイルを参照ファイルとして使用できます。たとえば、郵便番号のデータを一致させる場合にこのファイルの郵便番号を使用できます。
    データクオリティコンポーネントとジョブの詳細は、Data Qualityコンポーネントをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。