メイン コンテンツをスキップする
補完的コンテンツへスキップ
Qlik.com
Community
Learning
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
閉じる
ドキュメント
Qlik Talend ドキュメンテーション
リリース ノート
インストールとアップグレード
データ統合
管理と実行
データ品質とガバナンス
アプリケーションと API 統合
追加のリソース
API ドキュメンテーション ポータル
セキュリティ ポータル
Talend アーカイブ
Qlik ヘルプ
Getting Started
Getting started with Talend cloud
Talend Cloud
Talend Cloud API Designer
Talend Cloud Data Inventory
Talend Cloud Data Preparation
Talend Cloud Data Stewardship
Talend Cloud Pipeline Designer
Talend Cloud API Services Platform
Getting started with Talend on premises
Talend Data Fabric
Talend Data Preparation
Talend Data Stewardship
Qlik ヘルプに移動
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
検索
ヘルプを検索
メニュー
閉じる
ヘルプを検索
こちらにフィードバックをお寄せください
Talend Components
Machine Learning
Machine Learningのシナリオ
スパムをフィルタリングする分類モデルを作成
ランダムフォレストを使って分類モデルを作成する
トレーニングセットを読み取る
このページ上
手順
Availability-note
非推奨
このコンテンツは非推奨になりました。
手順
tFileInputDelimited
をダブルクリックして、
[Component] (コンポーネント)
ビューを開きます。
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)
チェックボックスをオンにし、使う
tHDFSConfiguration
コンポーネントを選択します。
tFileInputDelimited
はこの設定を使い、使うトレーニングセットにアクセスします。
[Edit schema] (スキーマを編集)
の横にある
[...]
ボタンをクリックし、スキーマエディターを開きます。
[+]
ボタンを5回クリックして5つの行を追加し、
[Column] (カラム)
カラムで名前をそれぞれ
label
、
sms_contents
、
num_currency
、
num_numeric
、
num_exclamation
に変更します。
label
カラムと
sms_contents
カラムは、
sms_contents
カラム内のSMSテキストメッセージで構成された生データを保持し、メッセージがスパムかどうかを
label
カラムでラベル表示します。
他のカラムは、このシナリオで前に説明したように、生データセットに追加された機能を保持するために使われます。これらの3つの機能は、各SMSメッセージにある通貨記号の数、数値の数、感嘆符の数です。
[Type] (タイプ)
カラムで、カラム
num_currency
、
num_numeric
、
num_exclamation
に
[Integer] (整数)
を選択します。
[OK]
をクリックして、これらの変更を検証します。
[Folder/File] (フォルダー/ファイル)
フィールドに、使うトレーニングセットが保管されているディレクトリーを入力します。
[Field separator] (フィールド区切り)
フィールドに
\t
を入力します。これはデータセットが使う区切りで、このシナリオ用にダウンロードできます。
このページは役に立ちましたか?
このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。
こちらにフィードバックをお寄せください
前のトピック
Sparkが使用するファイルシステムに接続を設定
次のトピック
tModelEncoderを使ってSMSテキストメッセージを特徴ベクトルに変換する