最適なモデルを選択する
実験の結果を分析するときは、自分のユース ケースにとって重要な特性を持つモデルを探すことが重要です。たとえば、一貫して正確な予測に加えて、迅速に予測を提供できるモデルも必要になる場合があります。実験の [モデル] タブでは、さまざまな角度の分析に基づいてモデルが推奨されます。
実験の再上位モデルを分析する
フィルターに基づいて推奨モデルが提示され、さまざまな品質の観点を検討するのに役立ちます。1 つのモデルが、複数の観点から最上位モデルとみなされる場合があります。最上位モデル タイプは次のとおりです。
ユーザー インターフェイスで最上位モデルを表示する
実験の最上位モデルの検索と調査の詳細については、「モデル メトリクス テーブルの分析」を参照してください。
ベスト モデル
フィルターに基づいて、分析のベスト モデルが自動的に選択されます。ベスト モデルは のアイコンで強調表示されます。
Qlik Predict では、正確度メトリクスと予測速度を考慮した、バランスの取れた計算からベスト モデルが決定されます。
ベスト モデルを決定するために、次のプロセスが自動的に実行されます。
-
モデル タイプによって決定された予測パフォーマンス メトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
-
二項分類: F1
-
多項分類: F1 Macro
-
回帰: R2
-
時系列: MASE (MASE を使用できない場合は MAE)
-
-
ステップ 1 のパフォーマンス スコアを使用して、最高スコアのモデルのスコアの 5% 以内にあるすべてのモデルを選択します。
-
選択したすべてのモデルの中で、予測速度が最も速いモデルを選択します (予測速度 を参照)。このモデルがベスト モデルです。
最も正確
モデルが一貫して高い正確度で予測を生成できることが重要です。F1、F1 Macro、R2 は、モデルの正確度を総合的に反映するバランスの取れたスコアリングを提供しますが、モデルの生の正確度と精度メトリクスを重視する場合もあるでしょう。
最も正確なモデルは のアイコンで強調表示されます。最も正確なモデルを決定するために、次のプロセスが自動的に実行されます。
-
モデル タイプによって決定された予測パフォーマンス メトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
-
ステップ 1 のパフォーマンス スコアを使用して、最高スコアのモデルのスコアの 10% 以内にあるすべてのモデルを選択します。
-
モデル タイプに応じて、次の 2 つの経路のいずれかが使用されます。
最速モデル
モデルを選択するときは、モデルが予測をどれだけ速く提供できるかを重視するとよいでしょう。最速モデルは のアイコンで強調表示されます。
予測速度に応じて、最速のモデルが決定されます。ただし、モデルの予測正確度は引き続き考慮されます。これは、モデルが高速で予測を出せる可能性があるとしても、一定の正確度が求められるためです。
最速モデルを決定するために、次のプロセスが自動的に実行されます。
-
モデル タイプによって決定された予測パフォーマンス メトリクスのスコアが最も高いモデルを選択します。使用されるメトリクスは次のとおりです。
-
モデル タイプに応じて、次の経路のいずれかが使用されます。
-
選択したすべてのモデルの中で、予測速度が最も速いモデルを選択します (予測速度 を参照)。このモデルが最速モデルです。
予測速度
予測速度は、二項分類、多項分類、回帰、時系列など、すべてのモデル タイプに適用されるモデル メトリクスです。予測速度は、機械学習モデルが予測を生成できる速度を測定します。
Qlik Predict では、予測速度は特徴量の計算時間とテスト データセットの予測時間を組み合わせて計算されます。表示単位は 1 秒あたりの行数です。
予測速度は、実験バージョンを実行した後に [モデル メトリクス] テーブルで分析できます。組み込み分析を使用してモデルを分析するときに、予測速度データを表示することもできます。詳細は以下をご覧ください。
考慮事項
測定される予測速度は、予測の対象となるデータではなく、トレーニング データセットのサイズに基づいています。モデルを展開した後、トレーニング データと予測データのサイズが大きく異なる場合や、1 行または少数のデータ行に対してリアルタイム予測を作成する場合に、予測が作成される速度に違いが見られる可能性があります。
オーバーフィット
オーバーフィットは、モデルの予測動作がトレーニング データセットに過度に適合してしまう場合に発生します。モデルがオーバーフィットされると、トレーニング データセット内の記憶されたパターンのみが保持される可能性が高くなり、将来の値を正確に予測できなくなります。
トレーニング アルゴリズムに関連する問題や、トレーニング データセットが短すぎたり複雑すぎたりすることなど、オーバーフィットにはさまざまな原因があります。
Qlik Predict では、予測速度を除く最上位モデルの選択プロセスで使用されるすべてのメトリクスについて、テスト トレーニング結果の分析を通じて、オーバーフィットが自動的に識別されます。
テスト結果とトレーニング結果を比較したときに、これらのメトリクスのいずれかに 10% を超える差がある場合、モデルはオーバーフィットの疑いがあります。
オーバーフィットの疑いがあるモデルは、たとえスコアが良い場合でも、推奨モデルとして提示されることはありません。モデル メトリクス テーブルでは、モデルに警告 のマークが付けられます。
フィルターに表示されているすべてのモデルがオーバーフィットしていると疑われる場合、推奨モデルは提供されません。
オーバーフィットへの対処
オーバーフィットには、次の方法で対処できます。
-
オーバーフィットの疑いがあるモデルは展開しないでください。
-
トレーニング データセットに問題があると思われる場合は、オーバーフィットを避けるためのトレーニング データを準備する方法について、「トレーニング用のデータセットの準備 」を参照してください。