モデルの改良
初期モデルをいくつか作成したら、それらのモデルを改良して、有効性と正確度を高めることが重要です。モデル スコアは、パフォーマンスのさまざまなメジャーを示しています。モデルを改良する目的はこれらのスコアを上げることですが、スコアが高いほどモデルが優れているとは限りません。
特徴量の除外または包含、トレーニング データの変更、その他の構成パラメーターの変更により、モデルを改良することができます。そうすると、異なるバージョンを比較して変更が与える影響を理解することができます。
ここでは、スコアを解釈することで、モデルを改良する方法を学習します。さまざまな指標の値から、結果を改善するために取るべき行動についてのインサイトが得られます。
要件と権限
ML 実験を操作するためのユーザー要件については、「実験の作業」を参照してください。
新しいバージョンの構成
実験バージョンの実行後、必要に応じて新しいバージョンを作成してモデルを改良することができます。
次の手順を実行します。
-
[データ]、 [モデル]、または [分析] タブから、次のバージョンのベースとして使用するモデルを選択します。
-
[構成を見る] をクリックします。
実験構成パネルが開きます。
-
[新しいバージョン] をクリックします。
新しいバージョンの作成後、次のような構成を変更することができます。
-
既存の特徴量の除外
-
以前は除外されていた特徴量の包含
-
データセットの変更または更新
-
アルゴリズムの選択または選択解除
これらのオプションの詳細については、以下のセクションをご覧ください。
新しいバージョンの下書き時に、[実験構成] パネルの [特徴量] にあるフィルター アイコンをクリックします。フィルターすると、トレーニング データセットの変更後に導入された特徴量を容易に視覚化することができます。自動設計された特徴量と設計されていない特徴量を見分けることもできます。
データセットの改善
モデルのスコアが良くない場合は、データセットを見直して問題に対処することをお勧めします。データセットを改善する方法の詳細については、「トレーニング用のデータセットの準備」を参照してください。
特徴量の除外
特徴量が多いほど、優れたモデルになるというわけではありません。モデルを改良するには、信頼性が低く関連性のない、次のような特徴量を除外します。
-
相関が高すぎる特徴量。相関がある 2 つの特徴量から、特徴量の重要度が低いほうを除外します。
-
特徴量の重要度が低すぎる特徴量。これらの特徴量は、学習しようとしている内容に何の影響も与えません。
-
特徴量の重要度が高すぎる特徴量。データ漏洩が原因である可能性があります。
テストでトレーニング データから特徴量を削除してから、トレーニングを再度実行して、モデルが改善されるかどうかを確認します。モデル スコアに大きな変化はあるでしょうか。それともないでしょうか。
次の手順を実行します。
-
カタログから実験を開きます。
-
[データ]、 [モデル]、または [分析] タブから、次のバージョンのベースとして使用するモデルを選択します。
-
[構成を見る] をクリックします。
実験構成パネルが開きます。
-
[新しいバージョン] をクリックして、新しい実験バージョンを構成します。
-
[特徴量] で、トレーニングで使用しない特徴量のチェックボックスをオフにします。
特徴量の追加
モデルのスコアが良くならない場合は、ターゲットと関連のある特徴量がまだデータセットに取り込まれていないことが原因かもしれません。データ品質を最適化するためにデータセットを再処理して再利用し、新しい特徴量と情報を追加できます。準備完了後、将来の実験バージョンに新しいデータセットを追加できます。「データセットの変更と更新」を参照してください。
新しい特徴量をキャプチャまたはエンジニアリングする方法の詳細については、「新しい特徴量列の作成」を参照してください。
アルゴリズムの選択
ターゲット列のデータ型に基づいて、トレーニングに適したアルゴリズムが自動的に選択されます。パフォーマンスが低い、または遅いアルゴリズムは除外することをお勧めします。そうすることで、トレーニングの時間を浪費せずに済みます。
アルゴリズムが選択される方法の詳細については、「モデル アルゴリズムの理解」を参照してください
次の手順を実行します。
-
カタログから実験を開きます。
-
[データ]、 [モデル]、または [分析] タブから、次のバージョンのベースとして使用するモデルを選択します。
-
[構成を見る] をクリックします。
実験構成パネルが開きます。
-
[新しいバージョン] をクリックして、新しい実験バージョンを構成します。
-
[アルゴリズム] で、トレーニングで使用しないアルゴリズムのチェックボックスをオフにします。
データセットの変更と更新
前回の実験バージョン以降、トレーニング データに変更が加えられている場合は、実験の将来のバージョン用にデータセットを変更または更新することができます。
同一実験内の異なるデータセット用にモデル メトリクスやパフォーマンスを比較する場合に役立つ可能性があります。例えば、次の場合に有用です。
-
データ レコードの新しいセットが利用できるか、データ レコードの元のセットが更新されている場合。例えば、直近月のトランザクションが利用できるようになり、トレーニングに使用することが適切な場合、またはデータ コレクションの問題が特定され、対処済みの場合。
-
モデル トレーニングの改善を目的として、元のトレーニング データセットが再処理されるか、再利用されている場合。例えば、理論を改善して特徴量列の値を定義するか、新しい特徴量列をさらに加えているとします。
データセットの変更または更新により、以前の実験バージョンでトレーニング済みの既存モデルが変更されることはありません。実験バージョン内では、モデルは、特定のバージョン内で定義されたトレーニング データのみでトレーニングされます。
要件
新しい実験バージョンのためにデータセットを変更または更新する場合、データセットは次の要件を満たす必要があります。
-
ターゲット列の名前と特徴量タイプは、元のトレーニング データセットのターゲットと同一であること。
- ターゲット列にある個別の値の数は、指定された実験タイプの要件と同一範囲であること。例えば、多項分類の実験には、引き続き 3 から 10 個の一意な値が新しいデータセットのターゲット列に必要です。特定の範囲については、「作成されたモデルの種類の決定」を参照してください。
他の特徴量列は完全に新しいもので、異なる名前、異なるデータを含むことができます。
データセットの変更
次の手順を実行します。
-
[データ]、 [モデル]、または [分析] タブから、次のバージョンのベースとして使用するモデルを選択します。
-
[構成を見る] をクリックします。
実験構成パネルが開きます。
-
[新しいバージョン] をクリックして、新しい実験バージョンを構成します。
-
[トレーニング データ] で、[データセットを変更] をクリックします。
-
新しいデータセットを選択するか、アップロードします。
データセットの更新
次の手順を実行します。
-
[データ]、 [モデル]、または [分析] タブから、次のバージョンのベースとして使用するモデルを選択します。
-
[構成を見る] をクリックします。
実験構成パネルが開きます。
-
[新しいバージョン] をクリックして、新しい実験バージョンを構成します。
-
[トレーニング データ] で、[データセットを変更] をクリックします。
データセットの変更が可能な場合には通知があります。通常、同一名の新しいファイルの作成により既存データ ファイルが上書きされると、データセットは更新されます。
改良バージョンを実行する
バージョンの構成が完了したら、実行できます。
次の手順を実行します。
-
画面右下隅にある [Run v2] (v2 を実行) をクリックします。
(ボタンのテキストは、実行したバージョンの数に応じて異なります)
実験バージョンの比較
新しいバージョンのトレーニングが完了したら、新しいバージョンと古いバージョンを比較して、変更の効果を確認します。実験バージョン間でモデルを比較するためのオプションはいくつかあります。
クイック分析
実験の [モデル] タブと [データ] タブを使用して、現在のバージョンを古いバージョンと比較します。[モデル] タブでは、次を実行できます。
-
[モデル メトリクス] テーブルで結果を表示します。
-
モデルを切り替えて、[モデル トレーニングの概要] とその他の自動生成チャートの違いを表示します。
クイック モデル分析の詳細については、「モデルのクイック分析の実行」を参照してください。
詳細な分析
実験の [比較] タブと [分析] タブに切り替えることで、モデル分析をさらに深く掘り下げることができます。これらのタブは、より詳細なレベルでモデルをインタラクティブに評価できる組み込み型アナリティクスエクスペリエンスを提供します。
[比較] タブでは、すべてのモデルのモデル スコアとハイパーパラメーターを比較できます。[分析] タブでは、特定のモデルに焦点を当てて、予測の精度、特徴量重要度、その他の詳細を評価できます。
詳細については、「モデルの比較」および「詳細なモデル分析の実行」を参照してください。
モデルの最適化設定を変更する
インテリジェント最適化が有効になっているバージョンを実行した後、インテリジェント最適化をオフにできます。これにより、インテリジェント最適化から提供されるインサイトを活用しながら、最小限の微調整を行うために必要な制御も行えます。または、設定をオフにして 1 つ以上のバージョンを実行した後、インテリジェント モデル最適化をオンにすることもできます。
ハイパーパラメーターの最適化は、モデルの改良プロセス中にオンにすると役立つ設定です。通常、実験の最初のバージョンでこの設定をオンにすることは推奨されません。
タイムアウェア トレーニングを使用するかどうかを変更したり、日付インデックスとして使用する列を変更したりすることもできます。
次の手順を実行します。
[構成を見る] をクリックします。
必要に応じて、 [新しいバージョン] をクリックして、新しい実験バージョンを構成します。
パネルで、 [モデル最適化] を展開します。
インテリジェント モデルの最適化をオンまたはオフにするには、 [インテリジェント] 設定と [手動] 設定を切り替えます。
ハイパーパラメーターの最適化を有効にする場合は、 [ハイパーパラメータの最適化] チェックボックスをクリックし、最大トレーニング時間を設定します。
[時間ベースのテスト - トレーニング分割] では、タイムアウェア トレーニングの設定を変更できます。
タイムアウェア トレーニングをオンにするには、データセット内の特定の [日付インデックス] 列を選択して、既定値の [なし] を変更します。
タイムアウェアトレーニングをオフにするには、 [日付インデックス] の値を [なし] に設定します。
選択した [日付インデックス] 列を別の列に変更します。
実験バージョンの削除
保存の必要がない実験バージョンは、削除できます。実験バージョンのすべてのモデルが削除され、復元できないことに注意してください。
次の手順を実行します。
[モデル] タブに切り替えます。
[モデル メトリクス] テーブルで、削除する実験バージョンからモデルを選択します。
ヒント メモツール バーのドロップダウン メニューを使用して、 [データ] タブまたは [分析] タブでモデルを選択することもできます。右下の [<version number> を削除] をクリックします。
確認ダイアログで、[削除] をクリックします。