ベーシックタイプのルールを使ってデータを正規化する

このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオでは、次の目的で2つのステップを実行します。

着信データを正規化する(非準拠データから準拠データを分離する)。
目的のデータを抽出して表示する。

これらの2つのステップを複製する前に、どのルールの構成が必要かを知るために、ソースデータを分析する必要があります。このシナリオでは、ソースデータは、partsmasterという.csvファイルに保管されます。

合計59行の生データがありますが、一部はキャプチャーに表示されていません。

観察により、漢字が含まれている3行目は認識されないことが予想されます。さらに、以下のことがわかります。

SKUデータには、34-9923、XC-3211、pb710125などが含まています。したがって、SKUデータの解析に使われるルールはたとえば次のようになります。

[Name] (名前)	[Type] (タイプ)	[Value] (値)
"SKU"	"Format"	"(DIGIT DIGIT\|LETTER LETTER) '-'? DIGIT DIGIT DIGIT DIGIT (DIGIT DIGIT?)? "

Sizeデータの場合、正しい形式は、2つまたは3つの長さの乗算と長さの単位です。したがって、Sizeデータの解析に使われるルールはたとえば次のようになります。

[Name] (名前)	[Type] (タイプ)	[Value] (値)
"LengthUnit"	"Enumeration"	" 'm' \| '\'' \| 'inch' \| 'inches' \| '\"'"
"BY"	"Enumeration"	"'X' \| 'x' \| 'by' "
"Length"	"Format"	"(INT \| FRACTION \| DECIMAL) WHITESPACE* LengthUnit "
"Size"	"Combination"	"Length BY Length BY Length"
"Size"	"Combination"	"Length BY Length"

2つの[Combination] (組み合わせ)ルールでは同じ名前が使われます。この場合、ルールは、このテーブルに示す上から下の順序で実行されます。

Weightデータの場合、正しい形式は、重量+重量単位です。したがって、Weightデータの解析に使われるルールは次のとおりです。

[Name] (名前)	[Type] (タイプ)	[Value] (値)
"WeightUnit"	"Enumeration"	" 'lb' \| 'lbs' \| 'pounds' \| 'Kg' \| 'pinds'"
"Weight"	"Format"	"(INT \| FRACTION \| DECIMAL) WHITESPACE* WeightUnit "

これで、このシナリオの2つのステップの複製を開始できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

ベーシックタイプのルールを使ってデータを正規化する

このセクション内

このページは役に立ちましたか?