データ ドリフト
時間の経過とともに、1 つ以上の特徴量のデータの分布、大きさ、その他のプロパティが変化するため、モデルの正確度が低下する可能性があります。元のモデルは特定のパターンと分布を含む特徴量を使用してトレーニングされたため、これらの分布が将来変更されると、予測の精度と品質に影響します。
データ ドリフトは数値化でき、さまざまな方法で計算できます。Qlik AutoML では、データ ドリフトは集団安定性指数式で計算されます。「展開されたモデルでのデータ ドリフトの監視」を参照してください。
ベストプラクティスは、元のトレーニングデータセットと、予測を生成している最新の適用データセットを比較することにより、モデルのデータドリフトを監視することです。データ ドリフトが特定のしきい値に達した場合は、モデルを再トレーニングするか、元の機械学習の問題が大幅に変更された場合は新しいモデルを構成します。
経時的なモデル性能の評価の詳細については、「経時的なモデル パフォーマンスの評価」を参照してください。
例
ある企業が、主に 45 歳以上の消費者に支持される商品群を持っているとします。特徴量 Age の値分布は次のようになります。
45 歳以上の消費者からの売上が多いことを示す棒グラフ。

最近、同社は若い消費者にも訴求することを目的とした新製品を導入しました。製品が期待通りに売れると、特徴量 Age に大幅な特徴量ドリフトが見られます。
企業の売上がより均等に分布していることを示す棒グラフ。売上は、あらゆる年齢層の消費者に均等に訴求しています。

AutoML でのデータ ドリフトの監視
AutoML には、展開されたモデル内の特徴量ごとにデータ ドリフトを検出するためのツールが組み込まれています。詳細については、「展開されたモデルでのデータ ドリフトの監視」を参照してください。