Text standardizationのコンポーネント
tJapaneseNumberNormalize | 日本語の数字(漢数字)をアラビア数字に正規化します。 |
tJapaneseTokenize | 日本語のテキストをトークンに分割します。 |
tJapaneseTransliterate | 日本語のテキストデータを仮名とラテンスクリプトに変換します。 |
tStem | このデータを照合する前に、カラムのデータを標準化できるようにします。 |
tTransliterate | 文字列を世界の多数の言語の標準文字セット UCS (Universal Coded Character Set)に変換します。 |