前提条件:
-
このページの左パネルにある[Downloads] (ダウンロード)タブからSMSテキストメッセージのセットをダウンロードします。
- 分類モデルtrainingSet.zipのトレーニングに使用するセット。
- 作成されたモデルの評価に使用するセット: testSet.zip
Talendは、https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection (英語のみ)からダウンロード可能なデータセットからこれら2つのセットを作成しました。データセットプレパレーションジョブ(dataset_preparation.zip)を使って3つの機能カラム(通貨記号の数、数値の数、感嘆符の数)を生データセットに追加し、データセットを比例的に分割しています。
ジャンクメッセージの例は次のとおりです。Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
通常のメッセージの例は次のとおりです。Ahhh. Work. I vaguely remember that! What does it feel like? Lol
生データセットに追加された新しい機能は、特にこのシナリオで使ったジャンクメッセージを観察した結果として発見されました(これらのジャンクメッセージには価格のマークや感嘆符が含まれている場合が多いです)。したがって、分析しようとしているあらゆるジャンクメッセージに対して一般化することはできません。さらに、データセットはランダムに2つのセットに分割されてそのまま使われますが、実際には、分類モデルをより適切にトレーニングするために、データセットバランシングなどのさまざまな方法を使って前処理を続けることができます。
-
Sparkの[Yarn client] (Yarnクライアント)モードを使ってTalend Sparkジョブを実行し、このシステムとの間でデータを読み書きする適切な権利とアクセス権限を持っている場合、2つのセットは、ジョブが実行されるマシン(たとえばYarnクラスターのHDFSシステム)に保管する必要があります。
このシナリオでは、Spark [Yarn client] (Yarnクライアント)が使われ、データセットは関連するHDFSシステムに保管されます。
-
使うSparkクラスターは適切に設定され、実行されている必要があります。