メイン コンテンツをスキップする 補完的コンテンツへスキップ

データをクレンジング

顧客データをプロファイリングし、問題を特定したら、次にデータをクレンジングする必要があります。たとえば、Talendで2つのジョブを生成し、1つのジョブでemailカラムから重複を除去し、もう1つのジョブではメールパターンに一致しない値を除去するといったことができます。

これにより、解決すべき問題を見極めることができ、その問題を解決するために使用するツールを決定できます。

重複値を削除

シンプル統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。

同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。

Procedure

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムの[Simple Statistics] (シンプル統計)結果に示されるグラフで、重複数バーを右クリックし、[Remove duplicates] (重複値の除去)をクリックします。

    この例では、メールカラムに使用されているシンプル統計の結果を使用します。

    Integrationパースペクティブが開き、生成されたジョブが表示されます。

    分析結果から自動生成されたジョブ。

    データベース入力コンポーネントとtUniqRowコンポーネントは、接続と、分析中のカラムに従って設定されています。

  3. ジョブを保存し、F6を押して実行します。

Results

重複値は、指定した出力ファイルに書き込まれます。

What to do next

同じ手順を使って、postalカラムからも重複値を除去できます。

Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。

一致しない値を除去

emailカラムで使用したメールパターンでは、一部のレコードが標準のメール形式に準拠していないことが示されました。既製ジョブを生成して、カラムから一致しない行を取り出すことができます。

Procedure

  1. Profilingパースペクティブで、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. emailカラムのPattern Matching (パターンマッチング)結果に示されるグラフのバーまたは数値結果を右クリックし、[Generate Job] (ジョブの生成)をクリックします。

    Integrationパースペクティブが開き、生成されたジョブが表示されます。

    分析結果から自動生成されたジョブ。

    このジョブはExtract Transform Load (抽出、変換、ロード)プロセスを使用して、2つの個別の出力ファイルに、パターンと一致する/一致しない有効/無効なメール行を書き込みます。

  3. ジョブを保存し、F6を押して実行します。

Results

emailカラムの有効な行および無効な行が、定義した出力ファイルに書き込まれます。

出力ファイルを別のTalendコンポーネントに置き換えて、有効なメール行または無効なメール行を取り出し、データベースに書き込むこともできます。

Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。