Apache Spark BatchのtNaiveBayesModelプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtNaiveBayesModelを設定するために使われます。
Spark BatchのtNaiveBayesModelコンポーネントは、機械学習ファミリーに属しています。
このコンポーネントは、ビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 |
[Model location] (モデルのロケーション) |
|
[Parameters] (パラメーター) |
|
使用方法
使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 |
[Model evaluation] (モデル評価) |
設定する必要があるパラメーターは自由パラメーターであるため、値は以前の実験や経験的推測などによって提供される場合があります。すべてのデータセットに適用できる最適値はありません。 したがって、各クラスで最適な正確性(ACC)スコアと最適な精度、[Recall] (再現率)およびF1測定スコアが得られるまで、さまざまなパラメーター値のセットを使って生成する分類子モデルをトレーニングする必要があります。
|
[Scores] (スコア) |
これらのスコアは、Project SettingsダイアログボックスのLog4jビューに次のコードを追加した時にジョブを実行すると、[Run] (実行)ビューのコンソールに出力できます。
<!-- DataScience Logger --> <logger name= "org.talend.datascience.mllib" additivity= "false" > <level value= "INFO" /> <appender-ref ref= "CONSOLE" /> </logger> これらのスコアは、Log4j INFOレベルの他の情報と共に出力されます。無関係な情報が出力されないようにするには、たとえば、この種の情報のLog4jレベルをWARNに変更します。ただし、このDataScience LoggerコードをINFOにしておく必要があります。 サブスクリプションバージョンのTalend Studioを使用している場合は、このコンポーネントのアクティビティは、log4j機能を使用して記録できます。この機能の詳細は、Log4を有効化して設定をご覧ください。 log4jロギングレベルの詳細は、Apacheのドキュメンテーション(http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html)をご覧ください。 |