メイン コンテンツをスキップする 補完的コンテンツへスキップ

モデル アルゴリズムの理解

アルゴリズムとは、モデルを生成するための数学的な処理手順のことです。データセットを入力として受け取り、モデルを出力として生成します。各アルゴリズムには、異なる長所と短所があります。

ターゲットを選択すると、AutoML はユースケースに最適なアルゴリズムを自動的に選択します。ターゲットにより、使用するアルゴリズムの種類が決定されます。

二項分類問題および多項分類問題で最適に機能するアルゴリズムは、次の場合に使用されます。

  • 「顧客はサブスクリプションをキャンセルしますか?」のように、ターゲットに 2 つの一意の値 (「はい」または「いいえ」) しかない場合

  • ターゲットが 3 ~ 10 個の一意の値を持つ文字列値の場合例: ターゲットを「赤」、「青」、「緑」、「黄」のいずれかにした場合に最適なキャンペーンの組み合わせを決定します。

ターゲットが数値列の場合、回帰問題で最適に機能するアルゴリズムが使用されます。回帰問題の例には、顧客が購入する金額の予測などがあります。

二項分類問題および多項分類問題のアルゴリズム

AutoML では、二項分類問題および多項分類問題に次のアルゴリズムが使用されます。

  • CatBoost 分類

  • エラスティック ネット回帰

  • ガウス ナイーブ ベイズ

  • ラッソ回帰

  • LightGBM 分類

  • ロジスティック回帰

  • ランダム フォレスト分類

  • XGBoost 分類

回帰問題のアルゴリズム

AutoML では、回帰問題に次のアルゴリズムが使用されます。

  • CatBoost 回帰

  • LightGBM 回帰

  • 線形回帰

  • ランダム フォレスト回帰

  • SGD 回帰

  • XGBoost 回帰

さまざまな種類のモデル

モデルの種類は、回帰モデル、アンサンブル、その他の種類の機械学習モデルに分類できます。

回帰モデル

回帰モデル、または一般線形モデルは、各変数の領域に沿ったトレンドを互いに独立して探すモデルのことです。代数方程式 y = mx+b のように、このアルゴリズムでは、各 xy の値に対して平均的に最高の正確度を生成する mb を選択しようとします。複数の変数がある場合も、一般的に同じ考え方です。線形回帰は回帰問題の回帰モデルの例であり、ロジスティック回帰は分類問題の回帰モデルの例です。

分類問題では、回帰モデルの出力は、サンプルがポジティブ クラスである確率となります。これは、y が確率に等しく、実際の値ではないことを意味します。

回帰はデータの線形トレンドを見つけるのに適していますが、非線形の関係が存在する場合もあります。回帰が非線形パターンにうまく適合できるようにするには、モデルをトレーニングする前にデータの変換が必要です。線形関係を深く理解することの利点は、線形関係は一般に外挿に最適であることです。以下の表は、回帰モデルの長所と短所を示しています。

長所 短所
  • 外挿が得意

  • 独立変数の線形トレンドを見つけるのが得意

  • 同じ母集団からの大規模なデータとの相性がよい

  • わかりやすい

  • 変数間のパターンを利用するのが苦手

  • 非線形トレンドに合わせるのが苦手

  • 単純すぎる場合がある

アンサンブル モデル

アンサンブルとは、複数のモデルを組み合わせたものです。異なる経歴を持つ人々のグループが投票し、平均的な投票数で決定することなどが例にあげられます。アンサンブル モデルの例には、ランダム フォレストや XGBoost があります。

アンサンブルは、回帰問題と分類問題の両方を解決できます。非線形関係の発見や、変数間の相互作用がターゲットにどのように影響するかを解明するのが得意です。アンサンブルは、トレーニングしたデータの範囲内でパターンを学習するのは得意ですが、範囲外の値を予測するのは苦手です。以下の表は、アンサンブル モデルの長所と短所を示しています。

長所 短所
  • 変数間のパターンを利用するのが得意

  • 非線形トレンドを見つけるのが得意

  • 同じ母集団からの大規模なデータとの相性がよい

  • 外挿が苦手

  • 解釈が容易ではない

その他のモデルの種類

その他のモデルの種類には、その他すべてのモデルの種類が含まれます。例として、最近傍法やガウス ナイーブ ベイズなどがあります。この種のモデルは、通常、データの新しい空間表現を作成しようとします。多くの場合、2 つのレコードの違いを測定する何らかのタイプの距離メトリクスを作成することによって実行されます。非線形トレンドの処理は得意ですが、データセットのサイズが大きくなると計算コストが高くなります。以下の表は、その他のモデルの長所と短所を示しています。

長所 短所
  • 変数間のパターンを利用するのが得意

  • 非線形トレンドを見つけるのが得意

  • 外挿が苦手

  • 大規模なデータセットでは計算コストが高くなる

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。