特定のDBカラムからの英単語の語幹の抽出
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、[translation] (変換)カラムのデータに対して言語的な正規化を実行し、すべての英単語の基本部分(単語の語幹)を抽出する6つのコンポーネントのジョブについて説明しています。
このジョブの目的は、[translation] (変換)カラムにリスト表示される英単語の語幹についての一種のディクショナリーを作成することです。このディクショナリーは後の段階で、選択したテーブルに入力される新しい単語をチェックする目的で使用される場合があります。抽出された英語の語幹は、出現数と共に出力ファイルの[translation] (変換)カラムに書き込まれます。
このシナリオでは、既にメインの入力スキーマがリポジトリーに保管されています。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。
メイン入力テーブルにはid_key、id_lang、translation、id_status、id_user_trans、id_user_validate、id_editorおよびdateという8つのカラムがあります。[translation] (変換)カラムで英単語の語幹を抽出します。