メイン コンテンツをスキップする 補完的コンテンツへスキップ

異常の検出と処理

インテリジェント モデル最適化を使用すると、異常の検出と処理が提供されます。これらの機能により、Qlik AutoML は特定の処理によってトレーニング データ内の外れ値を自動的に処理できます。トレーニング中、トレーニング データからの外れ値データは完全には削除されませんが、代わりにアルゴリズムによる重み付けシステムを使用して処理されます。

扱うことのできるほぼすべての種類のデータにおいて、外れ値または異常値が見られるのはよくあることです。異常値とは、通常予想される範囲外で発生するデータ値のことです。機械学習モデルをトレーニングする場合、一定の割合の異常は許容され、現実世界の偏差の反映として望ましい場合もあります。ただし、極端な場合は、異常値や外れ値によってモデルにバイアスが生じ、モデルの信頼性と有用性が低下します。

すべての異常値を平等に扱う必要はなく、常にデータから削除すべきものとしてみなす必要もありません。たとえば、データ収集時にデータの異常が自然に発生する可能性はあるものの、発生頻度が低い場合は、トレーニングするモデルでこれを使用することが適切であると考えられます。その良い例として、金融取引における不正行為が挙げられます。数百万件の取引のうち、不正に関連する取引はわずかです。モデルで分析して対処する問題によっては、予測を生成する際に日常的な取引における不正の可能性を考慮する必要がある場合があります。

削除が必要となる異常の例として、データの収集中に発生する意図しない障害が挙げられます。たとえば、気象パターンを予測するために使用されるモデルを構築しているとします。モデルは気象指標を監視するセンサーからのデータでトレーニングされていますが、無関係な停電が発生し、センサーから収集されるデータに不具合が生じました。この不良データは、モデルのトレーニングを完了する前に削除する必要がある異常データとみなされる可能性があります。

Qlik AutoML は異常値をどのように処理しますか?

新規実験では、既定でオンにされているインテリジェント モデル最適化を使用してモデルをトレーニングするときに、異常の検出と処理が実行されます。

異常の処理は、通常、検出と実際のモデルトレーニングという 2 つの別々のプロセスで発生すると考えられます。

異常の検出

トレーニングのバージョンを実行すると、AutoML はモデルのトレーニングが開始される前にいくつかのステップを完了します。これには、データの分類、Null 代入、その他の多くの処理が含まれます。異常検出はこの段階で完了し、インテリジェント モデル最適化をオンにした場合にのみ実行されます。

技術的に言うと、Qlik AutoMLは、決定木ベースのアルゴリズムである分離フォレスト アルゴリズムを使用して、トレーニング データ内の異常値と外れ値を検出します。インテリジェントモデル最適化のデータ処理段階では、データセット内の各データポイント(一般にレコードとして知られている)に異常スコアが割り当てられ、それが異常であることの確実性に基づいて重み付けされます。

モデルト レーニングにおける異常の処理

データが必要に応じて処理および変換された後、AutoML はモデルのトレーニングを開始します。この処理では、以前に生成された重み付け異常スコアを使用して、各行がモデルに与える影響を調整します。たとえば、異常が含まれている可能性が高いと考えられる行には、モデル トレーニングへの影響力が低く割り当てられます。

この重み付けスコアリング システムにより、AutoML はデータを破棄することなく、外れ値データがモデルに与える影響を減らすことができます。

考慮事項

Qlik AutoML には異常検出機能が備わっていますが、あらゆるデータを使用して高品質なモデルをトレーニングできるという意味ではありません。データに非常に多くの割合で欠陥または破損した情報が含まれている場合、異常検出ではこれらの問題をすべて解決することはできません。

このようなシナリオでは、データ収集プロセスに戻り、もっとも高品質で現実的なデータを使用できるようにすることをお勧めします。これにより、機械学習モデルの信頼性と成功を最適化できます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。