インテリジェントモデル最適化

インテリジェントモデル最適化により、実験でトレーニングしたモデルが自動的に改良されます。インテリジェントモデル最適化により、特徴量選択の反復と高度な変換の適用のプロセスが自動的に処理されます。関連機能がすべて含まれており、十分に準備されたトレーニングデータセットがあれば、インテリジェントなモデル最適化によって、単独のバージョン内ですぐに展開できるモデルをトレーニングできます。

インテリジェントモデル最適化とは

インテリジェントモデル最適化により、モデル改良プロセスの多くの処理が自動化されます。インテリジェントモデル最適化により、特徴量選択または入力データを手動で調整することなく、高品質のモデルを迅速にトレーニングできます。

インテリジェントモデル最適化を使用する

次のタイプの新しい ML 実験では、インテリジェントモデル最適化が既定でオンになっています。

二項分類
多項分類
回帰

インテリジェントモデル最適化は時系列実験には適用できません。

実行する実験のバージョンごとに、インテリジェントモデル最適化をオンまたはオフにできます。

インテリジェント最適化をオンにして実験バージョンを実行すると、最適化の結果を [モデルトレーニングの概要] で確認できます。この概要は、[モデルの洞察] の [モデル] タブに表示されます。下線付きの用語の上にカーソルを合わせると、ツールヒントで詳しい説明が表示されます。

[モデルトレーニングの概要] は、実験バージョンでトレーニングされたモデルごとに異なります。

インテリジェントモデル最適化の仕組み

インテリジェントモデル最適化を使用:

手動の最適化よりも多くのモデルがトレーニングされます。特徴量の選択はモデルレベルで処理されます。つまり、手動による最適化とは異なり、バージョン内の各モデルに異なる特徴量の選択を含めることができます。
既定ですべてのモデルに適用される自動前処理に加えて、トレーニングデータはいくつかの高度な変換によって処理されます。これらの変換により、データが機械学習アルゴリズムに最適な形式になることが保証されます。
品質保証のため、ベースラインモデル (バージョン用に構成した特徴量セット全体でトレーニングされたモデル) は引き続きトレーニングされます。これは、インテリジェント最適化によって実際にモデルスコアが向上しているかどうかを確認するのに役立ちます。
より大きなトレーニングデータセットの場合、モデルはさまざまなサンプリング比率でトレーニングされます。これにより、トレーニングプロセスを高速化できます。詳細については、「トレーニングデータのサンプリング」を参照してください。

トレーニングデータのサンプリング

大量のデータを使用してモデルをトレーニングする場合、Qlik Predict はサンプリングを使用して、元のデータセットのさまざまなサブセット (サンプリング比率) でモデルをトレーニングします。サンプリングは、トレーニングプロセスを高速化するために使用されます。トレーニングの開始時に、モデルは小さなサンプリング比率でトレーニングされます。トレーニングが継続されるにつれて、モデルは徐々により大きなデータ部分でトレーニングされるようになります。最終的に、モデルはデータセット全体（サンプリング比率 100%）でトレーニングされます。

モデルトレーニングデータの分析中、トレーニングデータセットの 100% 未満でトレーニングされたモデルは、一部のビューに表示されません。

インテリジェントモデル最適化中に適用される処理

[モデルトレーニングの概要] には、インテリジェントモデル最適化によってトレーニングデータがどのように処理されたかが示されます。次のセクションでは、ログに表示される各アイテムについて詳しく説明します。

適用される処理はモデルに応じて異なる場合があります。

インテリジェント最適化を使用してトレーニングされたモデルのトレーニング概要チャート。 — [モデル] タブに表示されるモデルの [モデルトレーニングの概要] チャート

特徴量の選択

インテリジェントモデル最適化により、予測性能を低下させる機能をドロップしてモデルを洗練させることができます。インテリジェントモデル最適化中に、次のいずれかの理由で特徴量がドロップされる可能性があります。

ターゲット漏洩: 特徴量はターゲット漏洩の影響を受ける疑いがあります。ターゲット漏洩の影響を受ける特徴量には、予測しようとしているターゲット列に関する情報が含まれています。たとえば、特徴量はターゲットから直接派生したものであったり、予測時には知られていない情報を含んでいたりします。ターゲット漏洩の原因となる特徴量は、モデルのパフォーマンスに関して誤った確信を与える可能性があります。実世界の予測では、モデルのパフォーマンスが大きく低下します。
低い Permutation Importance: この特徴量は、モデルの予測にほとんど影響を与えません。これらの特徴量を削除すると、統計ノイズが減少し、モデルのパフォーマンスが向上します。
相関が高い: この特徴量は、実験内の 1 つ以上の他の特徴量と高い相関関係があります。相関が高すぎる特徴量は、トレーニングモデルでの使用には適していません。

実験内の [データ] タブでは、各モデルでドロップされた特徴量に関するインサイトを表示できます。[インサイト] は、インテリジェントモデル最適化プロセス以外でドロップされた特徴量も参照します。各インサイトの詳細については、「データセットのインサイトの解釈」を参照してください。

特徴量変換

インテリジェントモデル最適化では、特徴量レベルで多くの技術的な変換が適用されます。これらの変換により、トレーニングデータが処理され、信頼性の高い機械学習モデルを作成するために、より効果的に使用できるようになります。特徴量変換は必要に応じて自動的に適用されます。[モデルトレーニングの概要] では、特徴量変換がいつ適用され、どの特徴量が影響を受けるかが通知されます。

累乗変換

特徴量データには、ある程度の非対称性と正規分布からの偏差を持つ分布が自然に含まれることがよくあります。モデルをトレーニングする前に、値の分布が過度に偏っているように見える場合は、データに何らかの処理を適用して値の分布を正規化すると良いでしょう。この処理は、偏りを減らし、外れ値を識別するのに役立ちます。

インテリジェントモデル最適化により、特定の歪度しきい値を超える数値特徴量は、累乗変換を使用して、より正規分布 (または正規分布に近い分布) になるように変換されます。具体的には、Yeo-Johnson 累乗変換が使用されます。

数値特徴量のビニング

数値特徴量には、機械学習アルゴリズムでは扱いにくいパターンや分布を含むものがあります。インテリジェントモデル最適化では、特定の数値特徴量のデータを、その数値範囲に応じて異なるビンに整理することで、この問題に部分的に対処します。特徴量をカテゴリ特徴量に変換できるようにビニングが実行されます。

ビニングが完了すると、新しいカテゴリ特徴量が one-hot encoded され、トレーニングに使用されます。one-hot encoded の詳細については、「カテゴリエンコーディング」を参照してください。

行レベルの重み付けとサンプリング

異常の検出と処理

異常値とは、合理的に予想される範囲外のデータ値のことです。トレーニングデータに外れ値があることは珍しいことではありません。異常値の中には、現実世界の可能性を反映する方法として望ましいものもあります。他のケースでは、異常値により、信頼できるモデルをトレーニングする能力が妨げられる場合もあります。

インテリジェントモデル最適化により、Qlik Predict は潜在的な異常を特定します。外れ値を含む行は、アルゴリズムを利用した重み付けシステムで処理されます。値が異常である疑いが強い場合、重み付けシステムにより、トレーニングデータ内の対応する行がモデルに与える影響が軽減されます。

モデルのトレーニングが完了すると、元のトレーニングデータセットから異常データとして処理された行の割合が通知されます。

詳細については、「異常の検出と処理」を参照してください。

クラスバランス

トレーニングデータセットでは、特定の値 (クラス) が他の値よりも多く出現する可能性があります。この現象はクラスの不均衡として知られています。クラスの不均衡がデータ内に存在する場合、結果として得られるモデルは少数派クラスよりも多数派クラスについてより多く学習し、予測精度に影響を与えます。

インテリジェントモデル最適化により、Qlik Predict はバイナリ分類モデルの自動クラスバランスを実行します。クラスの不均衡は、ターゲット列の 2 つのクラスの値の分布を比較することによって検出されます。具体的には、2 つのクラス間の比率が次の場合に実行されます。

行の 95% (またはそれ以上) に 1 つのクラスが含まれている場合
行の 5% (またはそれ以下) に他のクラスが含まれている場合

クラスバランスでは、クラスの分布を改善するためにトレーニングデータがオーバーサンプリングされます。このプロセスは反復的であり、モデルのパフォーマンスの最適なバランスを見つけるために、さまざまな出力比率が試行されます。

オーバーサンプリング後、オーバーサンプリングされたデータセットは、実験バージョンのモデルのトレーニングに使用されます。

クラスバランスに関する一般的な情報については、「クラスバランス」を参照してください。

インテリジェント最適化をオフにする

インテリジェント最適化をオフにする場合、トレーニングを手動で最適化します。トレーニングプロセスをより細かく制御する必要がある場合は、手動で最適化すると便利です。特に、インテリジェントモデル最適化を備えたバージョンを実行し、手動で小さな調整を行う必要がある場合は、この設定をオフにすることをお勧めします。

時系列実験では、手動の最適化は使用できません。

次の手順を実行します。

実験で、 [構成を見る] をクリックします。

実験構成パネルが開きます。
少なくとも 1 つのバージョンの実験をすでに実行している場合は、 [新しいバージョンを作成] をクリックします。
パネルで、 [モデル最適化] を展開します。
[インテリジェント] から [手動] に切り替えます。

考慮事項

インテリジェントモデル最適化を使用する場合は、次の点を考慮してください。

インテリジェントモデル最適化を使用しても、トレーニングによって高品質のモデルが生成されるとは限りません。信頼性の高いモデルを作成するには、データセットの準備と実験の構成段階も不可欠になります。適切に準備されたデータセットがない場合、または構成に重要な特徴量が欠けている場合、モデルが本番環境のユースケースで適切に機能する保証はありません。これらのステージの詳細については、次を参照してください。
- トレーニング用のデータセットの準備
- 実験の構成
あるバージョンでインテリジェントモデル最適化を有効にすると、このバージョンの各モデルには個別の特徴量のセットが含まれるようになります。一方、手動最適化でトレーニングされたバージョンのすべてのモデルには、同じ特徴量のセットが含まれます。
インテリジェントモデル最適化では、バージョンの構成に含めた特徴量とアルゴリズムのみが使用されます。

ハイパーパラメーターの最適化

ハイパーパラメーターの最適化は、インテリジェントモデル最適化では使用できません。ハイパーパラメーターの最適化を有効にするには、モデル最適化を [手動] に設定する必要があります。

詳細については、「ハイパーパラメーターの最適化」を参照してください。

例

インテリジェントモデル最適化の利点を示す例については、「チュートリアル - 予測データの生成と視覚化」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

インテリジェント モデル最適化

インテリジェント モデル最適化とは

インテリジェント モデル最適化を使用する

インテリジェント モデル最適化の仕組み

トレーニング データのサンプリング

インテリジェント モデル最適化中に適用される処理