詳細なモデル分析の実行
実験の [分析] タブでは、単独のモデルに焦点を当て、その予測パフォーマンスを詳しく分析できます。詳細分析は組み込み型アナリティクスを使って行われます。
トレーニングが終了したら、モデルを選択します。次に、 [分析] タブを開くと、モデルの予測精度、データの傾向に影響を与えているもの、その他の情報に関する詳細情報が表示されます。[分析] タブに表示されるデータは、ホールドアウト データに対してモデルが生成した予測に基づいています。
詳細なモデル分析の主な利点は次のとおりです。
-
必要に応じて、ビジュアライゼーションデータを調整およびカスタマイズできるインタラクティブ インターフェイス。
-
ホールドアウト データに基づいて行われた予測を、特徴量重要度の統計とともに詳しく確認できる。
分析ワークフロー
モデル トレーニングの結果を完全に理解するには、クイック分析を完了してから、 [比較] タブと [分析] タブの追加オプションに進むことをお勧めします。クイック分析では、インテリジェント最適化プロセス中に削除された特徴量を示す [モデル トレーニングの概要] が提供され、また、すぐに使用できるように自動生成されたビジュアライゼーションも多数提供されます。[比較] タブと [分析] タブには [モデル トレーニングの概要] は表示されませんが、モデル メトリクスをさらに深く掘り下げて、モデルの品質をより理解できます。
その他の分析オプションの詳細については、次を参照してください。
コンセプトの理解
モデルの評価を始める前に、モデル分析の背後にある概念の基本を理解しておくと役立ちます。詳細については、「モデル レビューの概念を理解する」を参照してください。
最適化の設定が分析に与える影響
インテリジェント モデル最適化を使用したかどうかによって、分析エクスペリエンスが若干異なる場合があります。新しい実験では、インテリジェント モデル最適化が既定でオンになっています。
インテリジェント最適化でトレーニングされたモデルの分析
新しい実験では、インテリジェント モデル最適化が既定でオンになっています。
インテリジェント モデル最適化により、より堅牢なトレーニング プロセスが提供され、ほぼ改良を加えることなく、すぐに展開できる理想的なモデルが作成されます。これらのモデルを本番環境のユースケースに展開した場合のパフォーマンスは、関連する特徴量とデータを含む高品質のデータセットを使用してモデルをトレーニングできるかどうかに依存します。
使用中のバージョンがインテリジェント モデル最適化を使用してトレーニングされたものである場合は、次の点を考慮してください。
-
バージョン内の各モデルは、アルゴリズムがデータをどのように分析したかに応じて、異なる特徴量の選択を持つことができます。
-
特定の分析に進む前に、 [モデル] タブから、モデルの [モデル トレーニングの概要] をお読みください。[モデル トレーニングの概要] には、問題が発生する可能性のある特徴量を除外して AutoML がモデルを自動的に最適化する方法の概要が示されています。
インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
インテリジェント最適化なしでトレーニングされたモデルの分析
別の方法として、トレーニングのバージョンに対してインテリジェント モデル最適化をオフにしている場合があります。トレーニング プロセスをより細かく制御する必要がある場合は、モデルを手動で最適化すると便利です。
手動最適化を使用した場合、バージョン内のすべてのモデルで同じ特徴量の選択が行われるため、 [モデル トレーニングの概要] は必要ありません。
構成の検査
前処理中に、トレーニングで使用されない特徴量が除外された可能性があります。これは通常、トレーニングが進むにつれて、バージョンを実行する前よりもデータに関する情報が増えるために発生します。
モデル トレーニングの概要 (インテリジェント最適化でのみ表示) を確認した後、その他の変更を確認する必要がある場合は、実験構成を詳しく調べることができます。
次の手順を実行します。
-
実験で、 [データ]タブに切り替えます。
-
スキーマ ビューになっていることを確認してください。
-
ツール バーのドロップダウン メニューを使用して、バージョンからモデルを選択します。
-
モデルのスキーマを分析します。特定の特徴量がドロップされたか、別の特徴量タイプに変換されたかどうかを確認するには、 [インサイト] 列と [特徴量タイプ] 列に注目してください。
たとえば、最初は [利用可能なフリー テキスト] としてマークされていた特徴量が、バージョンを実行した後に除外されている可能性があります。
各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。
既定のインテリジェント最適化オプションを使用してバージョンを実行した場合、自動調整により、バージョン内の各モデルで異なる特徴量の選択が行われる可能性があることに注意してください。バージョンがインテリジェント最適化なしで実行された場合、特徴量の選択はバージョン内のすべてのモデルに対して同じになります。インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
この構成で見つかった内容に基づいて、特徴量データを改善するためにデータセットの準備段階に戻る必要がある場合があります。
詳細な分析を開始する
特定のモデルの詳細な分析を開始するには、次のような方法があります。
-
[データ] または [モデル] タブでモデルを選択し、モデルの横にある をクリックして、 [分析] をクリックします。
-
モデルを選択したら、 [分析] タブをクリックします。
-
モデルの詳細な分析がすでに表示されている場合は、ツール バーのドロップダウン メニューを使用して別のモデルを選択します。
分析コンテンツは、実験のターゲットによって定義されたモデル タイプに応じて異なります。モデル タイプに応じて使用できるメトリクスは異なります。
組み込み型アナリティクスのナビゲート
インタラクティブ インターフェイスを使用して、組み込み型アナリティクスを備えたモデルを分析します。
シート間の切り替え
[シート] パネルを使用すると、分析内のシートを切り替えることができます。各シートには特定の焦点があります。パネルは、必要に応じて展開や折りたたみができます。
選択の実行理解
選択を使用してデータを絞り込みます。特徴量を選択して、特定の値や範囲にドリルダウンできます。これにより、必要に応じてさらに詳しく調べることができます。場合によっては、表示するビジュアライゼーションを 1 つ以上選択する必要があります。ビジュアライゼーションおよびフィルター パネルでデータ値をクリックして選択します。
選択内容は次のように操作できます。
-
コンテンツをクリックして値を選択し、範囲を定義して、描画します。
-
チャート内を検索して値を選択します。
-
組み込み型分析の上部にあるツール バーで選択した項目をクリックします。これにより、既存の選択内容の検索、選択内容のロックまたはロック解除、さらに変更ができます。
-
組み込み型分析の上部にあるツール バーで、 をクリックして選択を削除します。 アイコンをクリックしてすべての選択をクリアします。
-
と をクリックして、選択内容を前後に移動します。
分析には、データを簡単に絞り込むためのフィルター パネルが含まれています。フィルター パネルで、選択する値のチェック ボックスをクリックします。 フィルター パネルに複数のリスト ボックスが含まれている場合は、リスト ボックスをクリックして展開してから選択します。
データをカタログにエクスポートする
詳細分析で使用したデータをカタログにエクスポートできます。データは Qlik Cloud Analytics 内のスペースにエクスポートされます。エクスポートされたデータを使用して、カスタム分析用の独自の Qlik Sense アプリを作成できます。
詳細については、「モデル トレーニング データのエクスポート」を参照してください。
予測精度の分析
予測精度をどのように解釈するかは、トレーニング データセットの構造と機械学習のユース ケースに応じて異なります。さらに、これらのビジュアライゼーションの解釈はモデルの種類に応じて異なります。各モデルの種類の詳細については、以下のセクションで説明します。
[モデルの概要] シートの [予測] セクションには、モデルが正確に予測した数と、誤って予測した数の集計された概要が表示されます。
[予測と特徴量の分布] シートを使用して、特定の特徴量に焦点を当て、予測の不正確さの性質を分析します。シートの左側にあるフィルター パネルで 1 つの特徴量を選択します。このシートでは、すべてのモデルの種類について、予測の不正確さと実際の値の分布が並べて表示されるため、データの全体像を把握するのに役立ちます。
二項分類モデル
モデル全体の分析
[モデルの概要] シートの [予測] セクションには、混同行列で定義された生データが表示されます。これには、真陽性と偽陽性、および真陰性と偽陰性が含まれます。これらの値は静的な合計として表示されるため、選択には反応しません。これらの値の意味の詳細については、「混同行列」を参照してください。
データのサブセットの分析
[予測と特徴量の分布] シートの [誤予測] チャートには、各特徴量値または特徴量の範囲にバーが表示され、バーの高さは、モデルが実行した誤った予測の数に対応します。バーの各色は、それぞれの実際の目標値に対応しています。1 つの特徴量と、その他の任意の項目の値を選択して、さまざまなデータ サブセットの予測精度がどのように変化するかを確認します。
多項分類モデル
モデル全体の分析
[モデルの概要] シートの [予測] セクションには、実際の目標値ごとに棒グラフが表示されます。バーの各色の高さは、特定のクラスがモデルによって予測される回数に対応します。このチャートに加えて、 [予測] セクションには、正しい予測と誤った予測の内訳も表示されます。
データのサブセットの分析
[予測と特徴量の分布] シートの [誤予測] チャートには、各値または特徴量の範囲にバーが表示され、バーの高さは、モデルが実行した誤った予測の数に対応します。バーの各色は、それぞれの実際の目標値に対応しています。
回帰モデル
回帰モデルでは、モデル レベルと特徴量レベルの両方で次の情報を表示できます。
-
ターゲットの平均予測値
-
実際のターゲットの値
-
90 パーセンタイルおよび 10 パーセンタイルの予測範囲。これらの線は、モデルが値を予測すると予想される範囲を示しています。90 パーセンタイルの線は、常により大きな値を持つ線になります。
-
平均絶対誤差 (MAE)
モデル全体と特徴量固有のビジュアライゼーションの両方について、特徴量の実際の値の分布とともにメトリクスを分析します。
特徴量重要度の分析
概要へのアクセス
特徴量重要度を分析することで、各特徴量が他の特徴量と比較して予測にどのような影響を与えているかがわかります。
[モデルの概要] シートの [特徴量の影響] セクションには、SHAP 平均絶対値の集計された概要が表示されます。このチャートは、 [モデル] タブの [SHAP Importance] チャートと同じように見えます。チャートは選択した内容に基づいて更新されます。1 つの特徴量を選択すると、その特定の値や範囲にドリルダウンしてさらに詳細を確認できます。
SHAP 分布の分析
[特徴量別の影響] シートを開いて、各特徴量値または範囲の SHAP 値をより包括的に表示することもできます。SHAP 値は絶対値ではなく、方向性を示しています。
この分析は、特定のコホートのパターンの識別や、データ内の外れ値の発見に役立ちます。チャート内の値または範囲を選択してデータをフィルタリングし、より詳細な分析を実行できます。
チャートの外観と種類は、選択した特徴量の種類に応じて異なります。
カテゴリ別特徴量
カテゴリ別特徴量はボックス プロットとして視覚化されます。ボックス プロットは、各カテゴリ値の SHAP 値の分布を確認するのに役立ちます。ボックス プロットの構成は次のとおりです。
-
SHAP の平均値を表示します。
-
標準 (Tukey) 構成を使用:
-
値のボックスは、第 1 四分位数 (下限) と第 3 四分位数 (上限) によって定義されます。
-
中央値はボックス内の水平線です。
-
-
上下のひげは、1.5 四分位範囲の上限と下限に対応します。
-
外れ値は表示されません。
数値の特徴量
数値の特徴量の場合、SHAP 値は散布図として視覚化されます。散布図の構成は次のとおりです。
-
選択したサンプルの SHAP 値が表示されます。
-
散布図のルック アンド フィールは、表示するデータ ポイントの数に応じて異なります。データ ポイントの数が少ないチャートの場合は、個別のバブルが表示されます。データ ポイントの数が多いチャートの場合、バブルはブロックにまとめられ、各ブロック内のデータ ポイントの数が色で示されます。
散布図では、特定の値または範囲を選択して詳しく調べることができます。