メイン コンテンツをスキップする

非構造化データからの住所を標準化する

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、6つのコンポーネントを使って、Webサイトからコピーされた非ストラクチャー化入力データの住所を標準化します。これは、データを、ジョブによって以前に生成されたインデックスに含まれているデータと照合することによって行われます。

インデックス作成の詳細は、tSynonymOutputをご覧ください。

以下のコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。

  • tFixedFlowInput: このコンポーネントは、住所が抽出される非ストラクチャー化データを保持します。

  • tStandardizeRow: このコンポーネントは、住所ルールを定義し、定義されたタグを使ってXML形式で住所を生成します。これは、最初はストラクチャー化されていないデータを正規化および標準化するプロセスです。

  • tFilterColumns: このコンポーネントは、標準化された住所をフィルタリングします。

  • tExtractXMLField: このコンポーネントは、フォーマットされたカラムにすべての住所項目を出力するために、XMLツリーのAddressノードから属性を抽出します。

  • 2つのtLogRow: このコンポーネントは、出力データを表示するために使われます。最初のtLogRowは、エラーがあれば返します。2番目のtLogRowは、結果をコンソールに表示します。

このシナリオの複製を開始する前に、非ストラクチャー化データをインデックスデータと照合するために、インデックスのコンテンツを取得する必要があります。インデックスのコンテンツは次のようになります。

左側にはパリのストリート名が、右側にはデータで使われているシノニムが表示されます。データは、Webサイトから収集されたアドレスデータを標準化するための参照として利用されます。

このシナリオを再現するには、次のセクションが示す手順に従います。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。