最適なモデルを選択する

実験の結果を分析するときは、自分のユースケースにとって重要な特性を持つモデルを探すことが重要です。たとえば、一貫して正確な予測に加えて、迅速に予測を提供できるモデルも必要になる場合があります。実験の [モデル] タブでは、さまざまな角度の分析に基づいてモデルが推奨されます。

ML 実験の「モデルメトリクス」テーブル。上位のモデルが推奨として表示されます。 — 実験の再上位モデルを分析する

フィルターに基づいて推奨モデルが提示され、さまざまな品質の観点を検討するのに役立ちます。1 つのモデルが、複数の観点から最上位モデルとみなされる場合があります。最上位モデルタイプは次のとおりです。

ベストモデル
最も正確
最速モデル

ユーザーインターフェイスで最上位モデルを表示する

実験の最上位モデルの検索と調査の詳細については、「モデルメトリクステーブルの分析」を参照してください。

ベストモデル

フィルターに基づいて、分析のベストモデルが自動的に選択されます。ベストモデルはトロフィーのアイコンで強調表示されます。

Qlik Predict では、正確度メトリクスと予測速度を考慮した、バランスの取れた計算からベストモデルが決定されます。

ベストモデルを決定するために、次のプロセスが自動的に実行されます。

モデルタイプによって決定された予測パフォーマンスメトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
- 二項分類: F1
- 多項分類: F1 Macro
- 回帰: R2
- 時系列: MASE (MASE を使用できない場合は MAE)
ステップ 1 のパフォーマンススコアを使用して、最高スコアのモデルのスコアの 5% 以内にあるすべてのモデルを選択します。
選択したすべてのモデルの中で、予測速度が最も速いモデルを選択します (予測速度 を参照)。このモデルがベストモデルです。

最も正確

モデルが一貫して高い正確度で予測を生成できることが重要です。F1、F1 Macro、R2 は、モデルの正確度を総合的に反映するバランスの取れたスコアリングを提供しますが、モデルの生の正確度と精度メトリクスを重視する場合もあるでしょう。

最も正確なモデルはターゲットのアイコンで強調表示されます。最も正確なモデルを決定するために、次のプロセスが自動的に実行されます。

モデルタイプによって決定された予測パフォーマンスメトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
- 二項分類: F1
- 多項分類: F1 マクロ
- 回帰: R2
- 時系列: MASE (MASE を使用できない場合は、最も低い MAE のモデルを選択)
ステップ 1 のパフォーマンススコアを使用して、最高スコアのモデルのスコアの 10% 以内にあるすべてのモデルを選択します。
モデルタイプに応じて、次の 2 つの経路のいずれかが使用されます。
1. 二項分類:
  - トレーニングデータセットのバランスが取れている場合、最も正確度が高いモデルを選択します。これは最も正確なモデルです。使用される特定のメトリクスの詳細については、「正確度」を参照してください。
  - トレーニングデータセットが不均衡な場合は、精度スコアが最も高いモデルを選択します。使用される特定のメトリクスの詳細については、「適合率」を参照してください。
2. 多項分類または回帰:
  - 最も正確度が高いモデルを選択します。次の正確度メトリクスが使用されます。
    - 多項分類: 正確度
    - 回帰: MAE
3. 時系列: MAE スコアがベスト (最も低い) のモデルを選択。

最速モデル

モデルを選択するときは、モデルが予測をどれだけ速く提供できるかを重視するとよいでしょう。最速モデルはのアイコンで強調表示されます。

予測速度に応じて、最速のモデルが決定されます。ただし、モデルの予測正確度は引き続き考慮されます。これは、モデルが高速で予測を出せる可能性があるとしても、一定の正確度が求められるためです。

最速モデルを決定するために、次のプロセスが自動的に実行されます。

モデルタイプによって決定された予測パフォーマンスメトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
- 二項分類: F1
- 多項分類: F1 マクロ
- 回帰: R2
- 時系列:MASE (MASE を使用できない場合は、最も低い MAE のモデルを選択)
モデルタイプに応じて、次の経路のいずれかが使用されます。
1. 二項分類:
  - トレーニングデータセットのバランスが取れている場合は、ステップ 1 で選択したモデルの正確度スコアの 10% 以内の正確度スコアを持つすべてのモデルを選択します。使用される具体的なメトリクスについては、「正確度」を参照してください。
  - トレーニングデータセットが不均衡な場合は、ステップ 1 の最高スコアのモデルのスコアの 10% 以内のモデルをすべて選択します。ステップ 1 のメトリクスが使用されます。
2. 多項分類または回帰:
  - ステップ 1 のモデルの正確度スコアの 10% 以内の正確度スコアを持つすべてのモデルを選択します。次の正確度メトリクスが使用されます。
    - 多項分類: 正確度
    - 回帰: MAE
3. 時系列: ステップ 1 のモデルの MAE スコアの 10% 以内にあるすべてのモデルを選択します。
選択したすべてのモデルの中で、予測速度が最も速いモデルを選択します (予測速度 を参照)。このモデルが最速モデルです。

予測速度

予測速度は、二項分類、多項分類、回帰、時系列など、すべてのモデルタイプに適用されるモデルメトリクスです。予測速度は、機械学習モデルが予測を生成できる速度を測定します。

Qlik Predict では、予測速度は特徴量の計算時間とテストデータセットの予測時間を組み合わせて計算されます。表示単位は 1 秒あたりの行数です。

予測速度は、実験バージョンを実行した後に [モデルメトリクス] テーブルで分析できます。組み込み分析を使用してモデルを分析するときに、予測速度データを表示することもできます。詳細は以下をご覧ください。

考慮事項

測定される予測速度は、予測の対象となるデータではなく、トレーニングデータセットのサイズに基づいています。モデルを展開した後、トレーニングデータと予測データのサイズが大きく異なる場合や、1 行または少数のデータ行に対してリアルタイム予測を作成する場合に、予測が作成される速度に違いが見られる可能性があります。

オーバーフィット

オーバーフィットは、モデルの予測動作がトレーニングデータセットに過度に適合してしまう場合に発生します。モデルがオーバーフィットされると、トレーニングデータセット内の記憶されたパターンのみが保持される可能性が高くなり、将来の値を正確に予測できなくなります。

トレーニングアルゴリズムに関連する問題や、トレーニングデータセットが短すぎたり複雑すぎたりすることなど、オーバーフィットにはさまざまな原因があります。

Qlik Predict では、予測速度を除く最上位モデルの選択プロセスで使用されるすべてのメトリクスについて、テストトレーニング結果の分析を通じて、オーバーフィットが自動的に識別されます。

二項分類モデル:F1、正確度 (バランスが取れたデータ)、適合率 (不均衡データ)
多項分類モデル:F1 マクロ、正確度
回帰モデル:R2、MAE

テスト結果とトレーニング結果を比較したときに、これらのメトリクスのいずれかに 10% を超える差がある場合、モデルはオーバーフィットの疑いがあります。

オーバーフィットの疑いがあるモデルは、たとえスコアが良い場合でも、推奨モデルとして提示されることはありません。モデルメトリクステーブルでは、モデルに警告のマークが付けられます。

フィルターに表示されているすべてのモデルがオーバーフィットしていると疑われる場合、推奨モデルは提供されません。

オーバーフィットへの対処

オーバーフィットには、次の方法で対処できます。

オーバーフィットの疑いがあるモデルは展開しないでください。
トレーニングデータセットに問題があると思われる場合は、オーバーフィットを避けるためのトレーニングデータを準備する方法について、「トレーニング用のデータセットの準備 」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください