ベーシックタイプのルールを使ってデータを正規化する
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、次の目的で2つのステップを実行します。
-
着信データを正規化する(非準拠データから準拠データを分離する)。
-
目的のデータを抽出して表示する。
これらの2つのステップを複製する前に、どのルールの構成が必要かを知るために、ソースデータを分析する必要があります。このシナリオでは、ソースデータは、partsmasterという.csvファイルに保管されます。

合計59行の生データがありますが、一部はキャプチャーに表示されていません。
観察により、漢字が含まれている3行目は認識されないことが予想されます。さらに、以下のことがわかります。
-
SKUデータには、34-9923、XC-3211、pb710125などが含まています。したがって、SKUデータの解析に使われるルールはたとえば次のようになります。
[Name] (名前)
[Type] (タイプ)
[Value] (値)
"SKU"
"Format"
"(DIGIT DIGIT|LETTER LETTER) '-'? DIGIT DIGIT DIGIT DIGIT (DIGIT DIGIT?)? "
-
Sizeデータの場合、正しい形式は、2つまたは3つの長さの乗算と長さの単位です。したがって、Sizeデータの解析に使われるルールはたとえば次のようになります。
[Name] (名前)
[Type] (タイプ)
[Value] (値)
"LengthUnit"
"Enumeration"
" 'm' | '\'' | 'inch' | 'inches' | '\"'"
"BY"
"Enumeration"
"'X' | 'x' | 'by' "
"Length"
"Format"
"(INT | FRACTION | DECIMAL) WHITESPACE* LengthUnit "
"Size"
"Combination"
"Length BY Length BY Length"
"Size"
"Combination"
"Length BY Length"
2つの[Combination] (組み合わせ)ルールでは同じ名前が使われます。この場合、ルールは、このテーブルに示す上から下の順序で実行されます。
-
Weightデータの場合、正しい形式は、重量+重量単位です。したがって、Weightデータの解析に使われるルールは次のとおりです。
[Name] (名前)
[Type] (タイプ)
[Value] (値)
"WeightUnit"
"Enumeration"
" 'lb' | 'lbs' | 'pounds' | 'Kg' | 'pinds'"
"Weight"
"Format"
"(INT | FRACTION | DECIMAL) WHITESPACE* WeightUnit "
これで、このシナリオの2つのステップの複製を開始できます。