アドレスカラムをプロファイリング
ProfilingTalend Studioのパースペクティブを使って、メールや郵便番号などの顧客カラムをいくつか分析します。
これらのカラムに対して、すぐに使えるインジケーターとパターンを使って、一致したアドレスデータおよび一致しないアドレスデータ、個別のパターンと行において最も頻度の高いレコードの数、各カラムの重複数と空白数といった分析結果を表示できます。
カラム分析を定義
Procedure
アドレスカラムを選択してサンプルデータを設定
Procedure
システムインジケーターを設定
Procedure
パターンを設定
ここでは、emailカラムの内容が標準のメール形式に一致するように、postalカラムが米国の標準の郵便番号形式(ZIP)に一致するようにします。
これにより、メールとZIPコードの内容、ストラクチャー、クオリティが定義され、標準形式に一致するデータと一致しないデータの割合がわかります。
Procedure
分析を実行してプロファイリング結果を表示
Procedure
Results

パターンマッチングの結果は、メールのレコードの約10%が標準のメールパターンではないことを示しています。シンプル統計の結果は、メールのレコードの約8%が空白であり、約5%が重複していることを示しています。パターン頻度の結果は、それぞれの個別のパターンについて最も頻度の高いレコードの数を示しています。これはデータに一貫性がないことを示しており、キャンペーンを始める前に、メールデータの訂正とクレンジングが必要なことを示しています。
postalカラムの結果は次の図のようになります。

postalカラムの結果セットは、米国の標準の郵便番号コードに一致するレコード数と一致しないレコード数を示しています。結果セットは、空白数と重複数、およびそれぞれの個別のパターンについて最も頻度が高いレコードの数も示しています。これらの結果は、データにあまり一貫性がないことを示しています。
そのため一部の顧客とはメールでも郵便でも連絡が取れません。これらの結果は、データにあまり一貫性がないため、訂正が必要なことを明確に示しています。