機械学習について
機械学習とは、数学的アルゴリズムを使用してデータのパターンを認識し、それらのパターンを使用して予測する手法のことです。
簡単な例: 売上予測
機械学習をよりよく理解するために、次の四半期の製品売上を予測する簡単な例を見てみましょう。この製品の売上は、製品の広告費の金額によって影響を受けることがわかります。過去の四半期のデータを見ると、次のことがわかります。
-
テレビ広告に費やした金額 (単位: 千ドル)。
-
売上高 (単位: 百万ドル)。
データをプロットすると、テレビの広告費が多くなるほど、販売数が増えることは明らかです。
次の四半期の売上高を予測するには、過去のデータに関数をあてはめます。
次の四半期に費やす予定のテレビ広告費の金額に基づいて、この額に相当する値で関数を評価できます。次の四半期に、テレビ広告に 225,000 ドルを費やす予定であるとします。関数を 225 で評価すると 17.7 となり、次の四半期の売上は 1,770 万ドルと予測できます。
予測の精度をさらに向上させるために、図に示すように、履歴データにより適合する関数を見つけて、その関数に基づいて予測することもできます。
この例では、テレビ広告費の金額のみを取り上げています。将来の売上に影響を与える、他の要因についても検討できます。テレビ広告費のみの関数として売上高を計算する代わりに、例えば、テレビ広告費、ラジオ広告費、新聞広告費の 3 つの変数の関数として売上高を計算することができます。変数はいくつでも使用できますが、一般的な考え方は同じです。
機械学習の概念
データの観点から見ると、機械学習の問題は、過去のデータをテーブルにコンパイルして要約します。テーブルには予測するものを表す 1 つの列があり、前の例ではそれは売上高でした。機械学習の用語では、この列はターゲットと呼ばれます。他の列は特徴量と呼ばれ、ターゲット列の値を予測するために使用されます。特徴量とは、ターゲットの結果に影響を与える可能性がある変数のことです。機械学習の基本的な考え方は、次のとおりです。
データセットが与えられると、そのデータに適合する関数を見つけて、特徴量列の値からターゲット列の値を予測できるようにします。
さまざまな種類の機械学習の問題を解決するために、複数の高度な機械学習アルゴリズムが開発されています。機械学習アルゴリズムにデータを与えてパターンを学習させることを、機械学習アルゴリズムのトレーニングと言います。
機械学習の問題は、予測するターゲットが数値かカテゴリ値かによって、回帰問題または分類問題に分けられます。例については、「分類問題」および「回帰問題」を参照してください。
自動機械学習
自動機械学習では、過去のデータのトレーニング中に最適な関数が自動的に検出されます。データセットのアップロードからターゲットの選択まで、ボタンを押すだけで簡単にトレーニングを開始できます。
ただし、適切な入力がある場合にのみ、適切な予測出力が得られます。機械学習の実験には、明確に定義された機械学習の質問と、その質問に答えるために設計されたデータセットが必要です。最初の実験を開始するには、次のステップに従います。
- 機械学習の質問を定義する
構造化されたフレームワークを使用して、ビジネス ユース ケースを具体的な質問に変換します。
- トレーニング データセットを準備する
ユース ケースに関連する良質なデータを収集します。
- 自動機械学習の実験を作成する
準備が整ったら、実験を開始できます。