非構造化データからの住所を標準化する
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、6つのコンポーネントを使って、Webサイトからコピーされた非ストラクチャー化入力データの住所を標準化します。これは、データを、ジョブによって以前に生成されたインデックスに含まれているデータと照合することによって行われます。
インデックス作成の詳細は、tSynonymOutputをご覧ください。
以下のコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。
-
tFixedFlowInput: このコンポーネントは、住所が抽出される非ストラクチャー化データを保持します。
-
tStandardizeRow: このコンポーネントは、住所ルールを定義し、定義されたタグを使ってXML形式で住所を生成します。これは、最初はストラクチャー化されていないデータを正規化および標準化するプロセスです。
-
tFilterColumns: このコンポーネントは、標準化された住所をフィルタリングします。
-
tExtractXMLField: このコンポーネントは、フォーマットされたカラムにすべての住所項目を出力するために、XMLツリーのAddressノードから属性を抽出します。
-
2つのtLogRow: このコンポーネントは、出力データを表示するために使われます。最初のtLogRowは、エラーがあれば返します。2番目のtLogRowは、結果をコンソールに表示します。
このシナリオの複製を開始する前に、非ストラクチャー化データをインデックスデータと照合するために、インデックスのコンテンツを取得する必要があります。インデックスのコンテンツは次のようになります。
左側にはパリのストリート名が、右側にはデータで使われているシノニムが表示されます。データは、Webサイトから収集されたアドレスデータを標準化するための参照として利用されます。
このシナリオを再現するには、次のセクションが示す手順に従います。