メイン コンテンツをスキップする 補完的コンテンツへスキップ

アドレスカラムをプロファイリング

ProfilingTalend Studioのパースペクティブを使って、メールや郵便番号などの顧客カラムをいくつか分析します。

これらのカラムに対して、すぐに使えるインジケーターとパターンを使って、一致したアドレスデータおよび一致しないアドレスデータ、個別のパターンと行において最も頻度の高いレコードの数、各カラムの重複数と空白数といった分析結果を表示できます。

カラム分析を定義

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)フォルダーを展開します。
  2. [Analyses] (分析)フォルダーを右クリックし、[New Analysis] (新しい分析)を選択します。
    [分析]メニュー

    [Create New Analysis] (新しい分析を作成)ウィザードが開きます。

    [Create New Analysis] (新しい分析を作成)ウィザード
  3. フィルターフィールドで、basic column analysisの最初の数文字を入力して、[Basic Column Analysis] (カラム分析)を選択し、[Next] (次へ)をクリックします。
  4. [Name] (名前)フィールドに、現在のカラム分析の名前を入力します。
    情報メモImportant:

    ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " " " < > といった特殊文字は項目名に使用しないでください。

    ファイルシステムでは、これらの文字はすべて"_"に置き換えられ、重複する項目が作成されてしまう場合があります。

  5. 該当するフィールドで、カラム分析のメタデータ(目的説明作成者)を設定して[Next] (次へ)をクリックします。
  6. [Finish] (終了)をクリックします。

アドレスカラムを選択してサンプルデータを設定

Procedure

  1. [DB Connections] (DB接続)を展開し、分析するアドレスカラムを参照します。
    分析するカラムを選択するために展開されたDB接続。
  2. カラムを選択し、[Finish] (終了)をクリックしてウィザードを閉じます。

    新規作成した分析のフォルダーが[DQ Repository] (DQリポジトリー)ツリービューの[Analysis] (分析)ノードの下に表示され、分析エディターが開いて、分析メタデータが表示されます。

  3. [Data preview] (データプレビュー)セクションで、[Refresh Data] (データを更新)をクリックします。
    [データプレビュー]セクションの概要。

    選択したカラム内のデータがテーブルに表示されます。

    [New Connection] (新規接続)ボタンと[Select Data] (データを選択)ボタンをそれぞれ使用して、データソースと選択したカラムを変更できます。

  4. [Limit] (制限)フィールドを50に設定します。これは、テーブルに表示し、サンプルデータとして使用するデータレコード数です。
  5. 選択済みカラムから、50のランダムレコードをリスト表示するように、[n random rows] (nランダム行)を選択します。

システムインジケーターを設定

Procedure

  1. 分析エディターの[Data Preview] (データプレビュー)セクションで[Select Indicators] (インジケーターを選択)をクリックし、[Indicator Selection] (インジケーターの選択)ダイアログボックスを開きます。
    [インジケーター選択]ダイアログボックスの概要。
  2. インジケーター名の横のセル内をクリックし、分析済みカラム用のインジケーターパラメーターを設定し、OKをクリックします。

    データの一貫性を調べるため、すべてのカラムで行数、空白数、重複数を確認します。emailカラムとpostalカラムにPattern Frequency Table (パターン頻度テーブル)インジケーターを使って、個別のパターンまたは値について最も頻度の高いレコードの数を計算します。

    それによって、[Analyzed Columns] (分析済みカラム)セクション内のカラムにインジケーターが付加されます。

    [分析済みカラム]セクションの概要。
  3. [Blank Count] (空白数)インジケーターの横にある[Options] (オプション)アイコンをクリックし、[Upper threshold] (上限のしきい値)フィールドを0に設定します。

    インジケーターのしきい値を定義すると、分析結果のnull値の数が赤色で示されるため大変便利です。

    [インジケーター設定]ウィザードでしきい値を定義しているところ。

パターンを設定

ここでは、emailカラムの内容が標準のメール形式に一致するように、postalカラムが米国の標準の郵便番号形式(ZIP)に一致するようにします。

これにより、メールとZIPコードの内容、ストラクチャー、クオリティが定義され、標準形式に一致するデータと一致しないデータの割合がわかります。

Procedure

  1. [Analyzed Columns] (分析済みカラム)ビューで、emailの横にある[Add pattern] (パターンを追加)アイコンをクリックし、[Pattern Selector] (パターン選択)ダイアログボックスを開きます。
  2. [Regex] (正規表現) > [internet] (インターネット)の順に展開し、[Email Address] (メールアドレス)チェックボックスをオンにして、[OK]をクリックしてダイアログボックスを閉じます。
  3. [Email Address] (メールアドレス)インジケーターの横にある[Options] (オプション)アイコンをクリックし、[Lower threshold (%)] (下限のしきい値(%))フィールドを98.0に設定します。

    パターンにマッチするレコードの数が98%を下回ると、分析結果の値が赤色で示されます。

  4. 同じ手順を繰り返して、postalカラムにaddressフォルダーから[US Zipcode Validation] (米国の郵便番号検証)パターンを追加します。

    データ分析で使うパターンのタイプとその利用方法は、Talend Studioユーザーガイドのパターンをご覧ください。

分析を実行してプロファイリング結果を表示

Procedure

  1. 分析エディターでカラムの分析を保存し、F6を押してカラム分析を実行します。
    分析エディターの右にある[Graphics] (グラフ)パネルに、いくつかのグラフが表示され、パターンマッチングの結果を含む、カラム分析の結果が示されます。
  2. 分析エディターの下部にある[Analysis Results] (分析結果)タブをクリックし、より詳細な結果ビューにアクセスできます。
    これらの結果には、分析されたカラムに関して生成されたグラフ、統計結果の詳細を含むテーブル、パターンパッチングの結果が示されます。

Results

特定カラムのパターン統計の概要。

パターンマッチングの結果は、メールのレコードの約10%が標準のメールパターンではないことを示しています。シンプル統計の結果は、メールのレコードの約8%が空白であり、約5%が重複していることを示しています。パターン頻度の結果は、それぞれの個別のパターンについて最も頻度の高いレコードの数を示しています。これはデータに一貫性がないことを示しており、キャンペーンを始める前に、メールデータの訂正とクレンジングが必要なことを示しています。

postalカラムの結果は次の図のようになります。

特定カラムのパターン統計の概要。

postalカラムの結果セットは、米国の標準の郵便番号コードに一致するレコード数と一致しないレコード数を示しています。結果セットは、空白数と重複数、およびそれぞれの個別のパターンについて最も頻度が高いレコードの数も示しています。これらの結果は、データにあまり一貫性がないことを示しています。

そのため一部の顧客とはメールでも郵便でも連絡が取れません。これらの結果は、データにあまり一貫性がないため、訂正が必要なことを明確に示しています。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。