機械学習について

機械学習とは、数学的アルゴリズムを使用してデータのパターンを認識し、それらのパターンを使用して予測する手法のことです。

簡単な例: 売上予測

機械学習をよりよく理解するために、次の四半期の製品売上を予測する簡単な例を見てみましょう。この製品の売上は、製品の広告費の金額によって影響を受けることがわかります。過去の四半期のデータを見ると、次のことがわかります。

テレビ広告に費やした金額 (単位: 千ドル)。
売上高 (単位: 百万ドル)。

データをプロットすると、テレビの広告費が多くなるほど、販売数が増えることは明らかです。

テレビ広告費に対する売上高のプロット。 — テレビ広告費に対する売上高のプロット

次の四半期の売上高を予測するには、過去のデータに関数をあてはめます。

線形関数を使用したテレビ広告費に対する売上高のプロット。 — データにあてはめた線形関数

次の四半期に費やす予定のテレビ広告費の金額に基づいて、この額に相当する値で関数を評価できます。次の四半期に、テレビ広告に 225,000 ドルを費やす予定であるとします。関数を 225 で評価すると 17.7 となり、次の四半期の売上は 1,770 万ドルと予測できます。

線形関数のポイントを評価する、テレビ広告費に対する売上高のプロット。 — 特定額の広告費に対する売上予測を評価する関数

予測の精度をさらに向上させるために、図に示すように、履歴データにより適合する関数を見つけて、その関数に基づいて予測することもできます。

非線形関数を使用したテレビ広告費に対する売上高のプロット。 — データにより適合する関数

この例では、テレビ広告費の金額のみを取り上げています。将来の売上に影響を与える、他の要因についても検討できます。テレビ広告費のみの関数として売上高を計算する代わりに、例えば、テレビ広告費、ラジオ広告費、新聞広告費の 3 つの変数の関数として売上高を計算することができます。変数はいくつでも使用できますが、一般的な考え方は同じです。

機械学習の概念

データの観点から見ると、機械学習の問題は、過去のデータをテーブルにコンパイルして要約します。テーブルには予測するものを表す 1 つの列があり、前の例ではそれは売上高でした。機械学習の用語では、この列はターゲットと呼ばれます。他の列は特徴量と呼ばれ、ターゲット列の値を予測するために使用されます。特徴量とは、ターゲットの結果に影響を与える可能性がある変数のことです。機械学習の基本的な考え方は、次のとおりです。

データセットが与えられると、そのデータに適合する関数を見つけて、特徴量列の値からターゲット列の値を予測できるようにします。

さまざまな種類の機械学習の問題を解決するために、複数の高度な機械学習アルゴリズムが開発されています。機械学習アルゴリズムにデータを与えてパターンを学習させることを、機械学習アルゴリズムのトレーニングと言います。

機械学習の問題は、予測するターゲットが数値かカテゴリ値かによって、回帰問題または分類問題に分けられます。例については、「分類問題」および「回帰問題」を参照してください。

自動機械学習

自動機械学習では、過去のデータのトレーニング中に最適な関数が自動的に検出されます。データセットのアップロードからターゲットの選択まで、ボタンを押すだけで簡単にトレーニングを開始できます。

ただし、適切な入力がある場合にのみ、適切な予測出力が得られます。機械学習の実験には、明確に定義された機械学習の質問と、その質問に答えるために設計されたデータセットが必要です。最初の実験を開始するには、次のステップに従います。

機械学習の質問を定義する
構造化されたフレームワークを使用して、ビジネスユースケースを具体的な質問に変換します。
機械学習の質問の定義
トレーニングデータセットを準備する
ユースケースに関連する良質なデータを収集します。
トレーニング用のデータセットの準備
自動機械学習の実験を作成する
準備が整ったら、実験を開始できます。
実験の作業

詳細を見る

AutoML とは

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください