展開されたモデルでのデータ ドリフトの監視
ML 展開の [データ ドリフトの監視] パネルでは、ソースに展開されたモデルのデータ ドリフトを分析できます。データ ドリフトの監視を使用すると、モデルのトレーニングに使用される 1 つ以上の特徴量の分布の変化を識別できます。
計算された特徴量のドリフトが 0.25 を超えた場合、最新のデータでモデルを再トレーニングするか、元の機械学習の問題が大幅に変更されている場合は新しいモデルを構成することをお勧めします。
AutoML でのデータ ドリフト計算
Qlik AutoML では、データ ドリフトは集団安定性指数 (PSI) で計算されます。
PSI 値を確認することで、特徴量の大幅なデータ ドリフトを識別できます。PSI 値が 0.25 以上の場合は、モデルの再トレーニングまたは新しい実験の作成を検討してください。
PSI 値 | 説明 |
---|---|
0.1 未満 | 低いドリフト |
0.1 以上 0.25 未満 | 小さなドリフト |
0.25 以上 | 大幅なドリフト |
データ ドリフト分析の開始
次の手順を実行します。
-
ML 展開を開きます。
-
左側のパネルから、 [データ ドリフトの監視] を選択します。
-
埋め込み分析が生成されます。Feature Drift シートに留まり、データ ドリフト分析を実行します。
分析の可用性
分析を開いても、データ ドリフトの新しい計算はすぐには生成されません。データ ドリフトの計算は、毎日 1 回、午後 4:30 (UTC) に生成されます。
組み込み型アナリティクスのナビゲート
インタラクティブ インターフェイスを使用して、組み込み分析を備えた展開モデルを分析します。
シート間の切り替え
[シート] パネルを使用すると、分析内のシートを切り替えることができます。各シートには特定の焦点があります。パネルは、必要に応じて展開や折りたたみができます。
Feature Drift シートには、データドリフトに関するすべての情報が含まれています。Operations シートに切り替えると、ML 展開の使用状況を監視できます。詳細については、「展開モデル運用の監視」を参照してください。
選択の実行理解
選択を使用してデータを絞り込みます。特徴量とその特定の値または範囲を選択し、特定の日付と重要度の範囲でフィルタリングできます。場合によっては、表示するビジュアライゼーションを 1 つ以上選択する必要があります。ビジュアライゼーションでデータ値をクリックして選択します。
選択内容は次のように操作できます。
-
コンテンツをクリックして値を選択し、範囲を定義して、描画します。
-
チャート内を検索して値を選択します。
-
組み込み型分析の上部にあるツール バーで選択した項目をクリックします。これにより、既存の選択内容の検索、選択内容のロックまたはロック解除、さらに変更ができます。
-
組み込み型分析の上部にあるツール バーで、 をクリックして選択を削除します。 アイコンをクリックしてすべての選択をクリアします。
-
と をクリックして、選択内容を前後に移動します。
重要度と一緒に特徴量ドリフトを分析する
Feature drift vs importance チャートを使用して、特徴量ドリフトと Permutation Importance を一緒に分析します。ドリフトの変化が重要度のパターンの変化と並行して起こっているかどうかを識別できます。これら 2 つの指標を一緒に表示すると、新たに出現したパターンを発見し、データに影響を与える傾向をより深く理解できます。
ドリフト スコアがモデルのパフォーマンスに与える影響については、「AutoML でのデータ ドリフト計算」を参照してください。
特徴量ドリフトの経時的な監視
Feature drift over time チャートでは、各ドリフト計算のタイムラインを表示し、新しい予測が生成されるにつれて経時的に発生する変化を分析します。
特徴量が大幅なドリフトを示していることを示すために、PSI 値 0.25 に参照線が追加されました。ドリフト スコアがモデルのパフォーマンスに与える影響の詳細については、「AutoML でのデータ ドリフト計算」を参照してください。
特徴量分布の表示
Value distribution チャートは、トレーニング データセットとモデルで生成された最新の予測に使用されるデータセットの間で、特徴量の値分布を比較するのに役立ちます。特徴量内のどの範囲がドリフトの影響をもっとも受けているか、またはもっとも受けていないかを特定できます。
青い棒は、各範囲内にある最新の適用データセットの値の割合を示します。紫色の円形マーカーは、各範囲内に含まれるトレーニング データセットの値の割合を示します。棒の高さとマーカーの位置に大きな差がある場合は、範囲がドリフトの影響を受けている可能性があります。