モデル アルゴリズムの理解
アルゴリズムとは、モデルを生成するための数学的な処理手順のことです。データセットを入力として受け取り、モデルを出力として生成します。各アルゴリズムには、異なる長所と短所があります。
ターゲットを選択すると、AutoML はユースケースに最適なアルゴリズムを自動的に選択します。ターゲットにより、使用するアルゴリズムの種類が決定されます。
二項分類問題および多項分類問題で最適に機能するアルゴリズムは、次の場合に使用されます。
-
「顧客はサブスクリプションをキャンセルしますか?」のように、ターゲットに 2 つの一意の値 (「はい」または「いいえ」) しかない場合
-
ターゲットが 3 ~ 10 個の一意の値を持つ文字列値の場合例: ターゲットを「赤」、「青」、「緑」、「黄」のいずれかにした場合に最適なキャンペーンの組み合わせを決定します。
ターゲットが数値列の場合、回帰問題で最適に機能するアルゴリズムが使用されます。回帰問題の例には、顧客が購入する金額の予測などがあります。
二項分類問題および多項分類問題のアルゴリズム
AutoML では、二項分類問題および多項分類問題に次のアルゴリズムが使用されます。
-
CatBoost 分類
-
エラスティック ネット回帰
-
ガウス ナイーブ ベイズ
-
ラッソ回帰
-
LightGBM 分類
-
ロジスティック回帰
-
ランダム フォレスト分類
-
XGBoost 分類
回帰問題のアルゴリズム
AutoML では、回帰問題に次のアルゴリズムが使用されます。
-
CatBoost 回帰
-
LightGBM 回帰
-
線形回帰
-
ランダム フォレスト回帰
-
SGD 回帰
-
XGBoost 回帰
さまざまな種類のモデル
モデルの種類は、回帰モデル、アンサンブル、その他の種類の機械学習モデルに分類できます。
回帰モデル
回帰モデル、または一般線形モデルは、各変数の領域に沿ったトレンドを互いに独立して探すモデルのことです。代数方程式 y = mx+b のように、このアルゴリズムでは、各 x と y の値に対して平均的に最高の正確度を生成する m と b を選択しようとします。複数の変数がある場合も、一般的に同じ考え方です。線形回帰は回帰問題の回帰モデルの例であり、ロジスティック回帰は分類問題の回帰モデルの例です。
分類問題では、回帰モデルの出力は、サンプルがポジティブ クラスである確率となります。これは、y が確率に等しく、実際の値ではないことを意味します。
回帰はデータの線形トレンドを見つけるのに適していますが、非線形の関係が存在する場合もあります。回帰が非線形パターンにうまく適合できるようにするには、モデルをトレーニングする前にデータの変換が必要です。線形関係を深く理解することの利点は、線形関係は一般に外挿に最適であることです。以下の表は、回帰モデルの長所と短所を示しています。
長所 | 短所 |
---|---|
|
|
アンサンブル モデル
アンサンブルとは、複数のモデルを組み合わせたものです。異なる経歴を持つ人々のグループが投票し、平均的な投票数で決定することなどが例にあげられます。アンサンブル モデルの例には、ランダム フォレストや XGBoost があります。
アンサンブルは、回帰問題と分類問題の両方を解決できます。非線形関係の発見や、変数間の相互作用がターゲットにどのように影響するかを解明するのが得意です。アンサンブルは、トレーニングしたデータの範囲内でパターンを学習するのは得意ですが、範囲外の値を予測するのは苦手です。以下の表は、アンサンブル モデルの長所と短所を示しています。
長所 | 短所 |
---|---|
|
|
その他のモデルの種類
その他のモデルの種類には、その他すべてのモデルの種類が含まれます。例として、最近傍法やガウス ナイーブ ベイズなどがあります。この種のモデルは、通常、データの新しい空間表現を作成しようとします。多くの場合、2 つのレコードの違いを測定する何らかのタイプの距離メトリクスを作成することによって実行されます。非線形トレンドの処理は得意ですが、データセットのサイズが大きくなると計算コストが高くなります。以下の表は、その他のモデルの長所と短所を示しています。
長所 | 短所 |
---|---|
|
|