Text standardizationのコンポーネント
| tJapaneseNumberNormalize | 日本語の数字(漢数字)をアラビア数字に正規化します。 |
| tJapaneseTokenize | 日本語のテキストをトークンに分割します。 |
| tJapaneseTransliterate | 日本語のテキストデータを仮名とラテンスクリプトに変換します。 |
| tStem | このデータを照合する前に、カラムのデータを標準化できるようにします。 |
| tTransliterate | 文字列を世界の多数の言語の標準文字セット UCS (Universal Coded Character Set)に変換します。 |