日本語テキストをトークン化する
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
tJapaneseTokenizeコンポーネントを使って、日本語のテキストをトークンに分割できます。
以下で説明する例を複製するには、tJapaneseTokenize_standard_scenario.zipファイルをダウンロードします。
tJapaneseTokenize_standard_scenario.zipファイルは、以下によって構成されています。
- 日本語のテキスト、文字起こし、英語の翻訳が含まれたプレーンテキストファイルinputJapaneseText.txt。
- ジョブが含まれたtJapaneseTokenizeJob.zipファイル。