メイン コンテンツをスキップする
補完的コンテンツへスキップ
Qlik.com
Community
Learning
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
閉じる
ドキュメント
Qlik Talend ドキュメンテーション
リリース ノート
インストールとアップグレード
データ統合
管理と実行
データ品質とガバナンス
アプリケーションと API 統合
追加のリソース
API ドキュメンテーション ポータル
セキュリティ ポータル
Talend アーカイブ
Qlik ヘルプ
Getting Started
Getting started with Talend cloud
Talend Cloud
Talend Cloud API Designer
Talend Cloud Data Inventory
Talend Cloud Data Preparation
Talend Cloud Data Stewardship
Talend Cloud Pipeline Designer
Talend Cloud API Services Platform
Getting started with Talend on premises
Talend Data Fabric
Talend Data Preparation
Talend Data Stewardship
Qlik ヘルプに移動
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
検索
ヘルプを検索
メニュー
閉じる
ヘルプを検索
こちらにフィードバックをお寄せください
Talend Components
Machine Learning
Machine Learningのシナリオ
スパムをフィルタリングする分類モデルを作成
ランダムフォレストを使って分類モデルを作成する
tModelEncoderを使ってSMSテキストメッセージを特徴ベクトルに変換する
各メッセージ内の無関係な単語の重みを軽くする
このページ上
手順
Availability-note
非推奨
このコンテンツは非推奨になりました。
手順
tf_idf
とラベル表示された
tModelEncoder
コンポーネントをダブルクリックして、
[Component] (コンポーネント)
ビューを開きます。この処理で、
tModelEncoder
は出現頻度が非常に高いものの、出現しているメッセージが多すぎる単語の重みを軽くします。この種の単語は、
the
のようにテキスト分析に有意な情報をもたらさない場合が多いためです。
Tokenizer
とラベル表示された
tModelEncoder
に前述の操作を繰り返して、
Vector
型の
sms_tf_idf_vect
カラムを出力スキーマに追加し、上の画像に示すように変換を定義します。
この変換では、
tModelEncoder
は
[Inverse Document Frequency] (文献出現頻度の逆数)
を使って、5つ以上のメッセージに出現する単語の重みを軽くします。
このページは役に立ちましたか?
このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。
こちらにフィードバックをお寄せください
前のトピック
各メッセージの単語の重みを計算する
次のトピック
特徴ベクトルを組み合わせる