モデルのクイック分析の実行
モデルが実験バージョンのトレーニングを終了すると、最も重要なモデル メトリクスの分析を実行し、トレーニング データがどのように処理されたかの概要にアクセスします。クイック分析は、 [データ] タブと [モデル] タブで実行されます。
トレーニング結果の概要を確認するには、 [モデル] タブを使用します。実験バージョンを実行すると、自動的に [モデル] タブに切り替わります。また、 [データ] タブに再度移動して、データの前処理と処理方法を確認することをお勧めします。
二項分類実験の [モデル] タブ
モデルをさらに評価するための追加オプションも用意されています。モデル間で追加のメトリクスとハイパーパラメーターを比較することや、特定のモデルに焦点を当てて詳細な分析を実行することができます。これらのオプションは、 [比較] タブと [分析] タブで使用できます。詳細は以下をご覧ください。
コンセプトの理解
モデルの評価を始める前に、モデル分析の背後にある概念の基本を理解しておくと役立ちます。詳細については、「モデル レビューの概念を理解する」を参照してください。
最適化の設定が分析に与える影響
分類および回帰実験の場合、インテリジェント モデル最適化を使用したかどうかに応じて、分析エクスペリエンスが若干異なる場合があります。新しい分類および回帰実験では、インテリジェント モデル最適化が既定でオンになっています。
インテリジェント最適化でトレーニングされたモデルの分析
既定では、新しい分類および回帰実験はインテリジェント モデル最適化を使用して実行されます。
インテリジェント モデル最適化により、より堅牢なトレーニング プロセスが提供され、ほぼ改良を加えることなく、すぐに展開できる理想的なモデルが作成されます。これらのモデルを本番環境のユースケースに展開した場合のパフォーマンスは、関連する特徴量とデータを含む高品質のデータセットを使用してモデルをトレーニングできるかどうかに依存します。
使用中のバージョンがインテリジェント モデル最適化を使用してトレーニングされたものである場合は、次の点を考慮してください。
-
バージョン内の各モデルは、アルゴリズムがデータをどのように分析したかに応じて、異なる特徴量の選択を持つことができます。
-
特定の分析に進む前に、 [モデル] タブから、モデルの [モデル トレーニングの概要] をお読みください。[モデル トレーニングの概要] には、Qlik Predict が特徴量選択を反復し、高度な変換を適用することでモデルを自動的に最適化した方法の概要が表示されます。
インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
インテリジェント最適化なしでトレーニングされたモデルの分析
別の方法として、トレーニングのバージョンに対してインテリジェント モデル最適化をオフにしている場合があります。トレーニング プロセスをより細かく制御する必要がある場合は、モデルを手動で最適化すると便利です。
手動最適化を使用した場合、バージョン内のすべてのモデルで同じ特徴量の選択が行われるため、 [モデル トレーニングの概要] は必要ありません。
構成の検査
前処理中に、トレーニングで使用されない特徴量が除外された可能性があります。これは通常、トレーニングが進むにつれて、バージョンを実行する前よりもデータに関する情報が増えるために発生します。
モデル トレーニングの概要 (インテリジェント最適化でのみ表示) を確認した後、その他の変更を確認する必要がある場合は、実験構成を詳しく調べることができます。
次の手順を実行します。
-
実験で、 [データ]タブに切り替えます。
-
スキーマ ビューになっていることを確認してください。
-
ツール バーのドロップダウン メニューを使用して、バージョンからモデルを選択します。
-
モデルのスキーマを分析します。特定の特徴量がドロップされたか、別の特徴量タイプに変換されたかどうかを確認するには、 [インサイト] 列と [特徴量タイプ] 列に注目してください。
たとえば、最初は [利用可能なフリー テキスト] としてマークされていた特徴量が、バージョンを実行した後に除外されている可能性があります。
各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。
既定のインテリジェント最適化オプションを使用してバージョンを実行した場合、自動調整により、バージョン内の各モデルで異なる特徴量の選択が行われる可能性があることに注意してください。バージョンがインテリジェント最適化なしで実行された場合、特徴量の選択はバージョン内のすべてのモデルに対して同じになります。インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
この構成で見つかった内容に基づいて、特徴量データを改善するためにデータセットの準備段階に戻る必要がある場合があります。
インテリジェント モデル最適化をオフにすると、クイック分析エクスペリエンスの一部としての [モデル トレーニングの概要] は表示されません。さらに、実験バージョンのすべてのモデルは同じ特徴量の組み合わせを使用しますが、インテリジェント最適化を使用してトレーニングされたモデルでは異なる特徴量の組み合わせを使用できます。
モデルの選択
トレーニングが完了すると、分析用に推奨モデルが自動的に選択され、そのモデルのメトリクスが表示されます。
モデルを切り替えて、メトリクスと構成の違いを比較します。[データ] タブにいる場合は、ツール バーのドロップダウン メニューでモデルを選択します。[モデル] タブにいる場合は、 [モデル メトリクス] テーブルでモデルをクリックしてモデルを選択します。
トレーニングの概要の分析
インテリジェント モデル最適化
インテリジェント モデル最適化を使用してトレーニングされたモデルの場合、 [モデル トレーニングの概要] には、トレーニング中に発生した内容に関する重要な情報の概要が表示されます。この概要には次が含まれます。
-
モデルのサンプリング比率。
-
インテリジェント最適化の結果として自動的に削除された特徴量のリスト。 このリストは選択したモデルに応じて異なります。
-
モデルのトレーニング時に適用された高度な変換の概要。
-
トレーニング データセットへのリンク。
モデルを手動で最適化している場合、 [モデル トレーニングの概要] は表示されません。
インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
[モデル] タブに表示されるモデルの [モデル トレーニングの概要] チャート
モデルトレーニングの概要には、前処理段階で削除された特徴量はリストされません。この情報を確認するには、実験の [データ] タブに戻ります。参照: 構成の検査
次の手順を実行します。
-
実験で、 [モデル] タブに切り替えます。
-
分析するモデルを選択したことを確認します。
-
ページの右側にある [モデルの洞察] セクションで、 [モデル トレーニングの概要] を確認します。
時系列実験
時系列実験では、モデルトレーニングの概要に、データセットとトレーニング設定によって定義された時系列予測問題の構成設定が表示されます。これらの詳細の一部はトレーニング開始前に推定されていましたが、データセット全体が分析されたことで確認されました。次を表示できます。
時系列実験におけるモデルの [モデルトレーニングの概要] チャート
モデル メトリクス テーブルの分析
[モデル メトリクス] テーブルには、実験における各モデルのパフォーマンスに関する高レベルな情報が提供されます。このリストの推奨モデルはテーブルの上部に表示されます。
推奨モデルとフィルターを含む [モデル メトリクス] テーブル
テーブルには次が表示されます。
-
最上位モデルのタイプに関して、そのモデルが最上位モデルであるかどうか。参照: 最上位モデルを見つける
-
各モデルの名前 (必要に応じて編集可能。参照:モデルの詳細を編集する)
-
モデルをトレーニングするために使用されるアルゴリズム
-
モデルのパフォーマンスに関連する主要なメトリクス。次を切り替えることができます。
-
モデルタイプに応じて予測可能性を評価するための共通メトリクス。二項分類モデルの場合、これは F1 です。多項分類モデルの場合、これは F1 Macro です。回帰モデルの場合、これは R2 です。
-
予測速度。
-
正確度。分類モデルの場合、これは正確度と呼ばれるメトリクスです。回帰モデルの場合、これは MAE (平均絶対誤差)です。
-
最上位モデルを見つける
適用したフィルターに基づいて、最良かつ最高のパフォーマンスを発揮するモデルが決定されます。これらは、モデル メトリクス テーブルの上部に推奨事項として示され、テーブル内でも強調表示されます。
既定では [ベスト モデル] が選択されます。このモデルには のアイコンが付いています。正確度と予測速度の両方を考慮したバランスの取れた計算に基づいて、ベスト モデルが決定されます。
ユース ケースによっては、特定のパフォーマンス マーカーを個別に分析することもできます。その他のトップ パフォーマンス モデルは、次のマーカーで強調表示されます。
-
最も正確: 問題の種類に適用可能なスコアリング メトリクスに基づいて、最も高い正確度を示すモデルです。
-
最速モデル: 予測速度が最も速いモデルです。正確度も考慮されます。
[モデル メトリクス] テーブルの上部にある推奨モデルから、パフォーマンス最上位モデルを直接選択することもできます。
各タイプの推奨モデルが決定される方法の詳しい概要については、「最適なモデルを選択する」を参照してください。
テーブル内のモデルのフィルタリング
モデル メトリクス テーブルをフィルタリングして、比較するモデルのみを表示できます。
次のフィルターが使用可能で、必要に応じて組み合わせることができます。
-
バージョン: 1 つ以上の実験バージョンを選択します。
-
アルゴリズム: 1 つ以上のアルゴリズムを選択します。
-
100% サンプリング: このフィルターは既定で適用されます。必要に応じて削除できます。フィルターには、トレーニング データセット全体を使用してトレーニングと相互検証のプロセスを完了したモデルが表示されます。[その他のモデル フィルター] の下にあります。
-
展開済み: ML 展開に展開されたモデルを表示します。[その他のモデル フィルター] の下にあります。
必要なフィルターを適用すると、フィルターされた項目に基づいて、パフォーマンス最上位モデルが自動的に再計算されます。その後、推奨モデルが更新されます。
特徴量重要度のビジュアライゼーションの解釈
[モデル] タブで下にスクロールして、特徴量重要度のビジュアライゼーションを表示します。Permutation Importance と SHAP Importance があります。
[モデル] タブの特徴量重要度のビジュアライゼーション
Permutation Importance チャート
Permutation Importance チャートは、モデルの全体的な予測に対する各特徴量の重要度を示します。Permutation Importance チャートに表示される内容は、モデルを改良する方法を理解するのに役立ちます。
このチャートを分析することで得られる一般的な洞察は次のとおりです。
-
1 つの特徴量がほとんどすべての重要度を消費している場合、これはターゲット漏洩の兆候である可能性があります。その特徴量を削除する必要があります。これがデータ品質の問題に起因するものであれば、その問題にも対処する必要があります。
-
モデルの予測にほぼ影響を与えない特徴量もあります。Permutation Importance が極めて低い特徴量は統計的なノイズとみなされる可能性があり、削除する必要があります。
インテリジェント モデル最適化を使用してバージョンをトレーニングした場合、上記の一般的な問題の一部は、これらの特徴量を削除することで自動的に解決される可能性があります。
Permutation Importance の詳細については、「Permutation Importance を理解する」を参照してください。
SHAP Importance チャート
SHAP Importanceチャートは、実験内の各特徴量が各モデルからの予測に与える影響を分析する別の方法を提供します。これにより、どの特徴量が重要であるか、またはトレーニングを再構成する必要があるかどうかを早期に把握できます。詳細については、「実験トレーニングにおける SHAP Importance を理解する」を参照してください。
モデル スコアリングのビジュアライゼーションの解釈
一部のモデルタイプでは、モデルのパフォーマンスの概要を示す追加のビジュアライゼーションを使用できます。
二項分類
実験が二項分類の問題である場合、すぐに使用できるように、多数の追加のビジュアライゼーションが自動生成されます。これらのビジュアライゼーションにより、モデルがポジティブ クラスとネガティブ クラスをどの程度正確に予測しているかについて、より深い洞察が得られます。
ビジュアライゼーションの詳細については、「二項分類モデルのスコアリング」を参照してください。
混同行列
混同行列チャートは、モデルによって作成された予測の精度を示します。予測は自動ホールドアウト データに対して実行されます。
ROC 曲線
ROC 曲線は、実際の結果が陽性である場合に、モデルがポジティブ クラスを予測するのにどれだけ優れているかを示しています。
理想的な ROC 曲線については、「AUC と ROC 曲線」を参照してください。
時系列
時系列モデルの場合、予測の正確度に関するインサイトを提供するために、 [予測ウィンドウ内の予測誤差] チャートが自動生成されます。予測ウィンドウでは、各時間ステップの予測誤差率を表示できます。誤差率は、50 パーセンタイル、10 パーセンタイル、90 パーセンタイルに分類されます。