Text standardizationのコンポーネント

tJapaneseNumberNormalize	日本語の数字(漢数字)をアラビア数字に正規化します。
tJapaneseTokenize	日本語のテキストをトークンに分割します。
tJapaneseTransliterate	日本語のテキストデータを仮名とラテンスクリプトに変換します。
tStem	このデータを照合する前に、カラムのデータを標準化できるようにします。
tTransliterate	文字列を世界の多数の言語の標準文字セット UCS (Universal Coded Character Set)に変換します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。