メイン コンテンツをスキップする 補完的コンテンツへスキップ

分類問題

ターゲット列がカテゴリ列である問題は、分類問題と呼ばれます。二項分類問題は「はい」または「いいえ」などの 2 つのカテゴリを持ちますが、多項分類問題は 3 つ以上のカテゴリを持ちます。

次の例では、2 種類の分類問題について説明します。また、機械学習の質問を定義する際の考慮事項についても説明します。

二項分類の例: 顧客チャーン

この例では、ある企業がサブスクリプションベースのモデルを提供しています。過去と現在のすべての顧客に関するデータが収集されています。顧客には、サブスクリプションをキャンセル (チャーン) したかどうかのラベルが付けられています。

次のテーブルには、収集されたデータが示されています。各行は一意の顧客を表し、列はその顧客を説明するさまざまな特徴量を表しています。最後の列がターゲットです。この列は、顧客がサブスクリプションをキャンセルしたかどうか (「はい」または「いいえ」) を指定する二項列です。

収集データのサンプル

トレーニング データのサンプルを含むテーブル。

このデータセットを使用して機械学習アルゴリズムをトレーニングすると、特定の顧客がチャーンするかどうかを予測できます。ただし、このアプローチには次のような問題があります。

  • このデータセットは新規顧客と既存顧客を比較しており、まだキャンセルしていない顧客が今後キャンセルするかどうかについての情報はない。

  • 新規に獲得した顧客には、チャーンの可能性を示す特性がある (20 代の男性で、最初の 1 か月にあまり購入しない場合 、すぐにサブスクリプションをキャンセルする傾向があることがわかっています)。ただし、彼らは新規顧客であり、まだキャンセルされていないため、機械学習アルゴリズムをトレーニングして、これらの特性をキャンセルしない忠実な顧客に関連付けます。

チャーンを定義する方法と、問題に対するデータセットを準備する方法を的確にすることで、これらの落とし穴を回避します。機械学習で対処できるように的確かつ適切な方法でビジネス上の質問をする感覚を身につけるには、実践の積み重ねが必要です。この方法の良い例と悪い例の両方を確認して、ビジネス アプリケーションの機械学習の開始に役立ててください。機械学習に関するビジネス上の質問を組み立てる方法がわからない場合は、ビジネス指標の定義に時間枠を組み込むことを検討してください。多くの場合において、この戦略は効果が見込まれます。

時間要素を含める

質問に時間を組み込むことを検討しましょう。最初の 6 か月以内にサービスをキャンセルする顧客について調査できます。例えば、顧客の最初の 1 か月間の行動を使用して、最初の 6 か月以内にチャーンするかどうかを予測できます。時間枠を組み込んだ方法により、顧客チャーンを的確に定義できるようになりました。次のようにデータセットを集約できます。

時間要素を含むデータセット

トレーニング データのサンプルを含むテーブル。

ここでは、各行が顧客を表していますが、6 か月以上継続している顧客のみが含まれています。それぞれの顧客について、最初の 1 か月の購入回数と合計金額を使用して、6 か月後のチャーンを予測します。この質問の目的では、顧客が最初の 6 か月後にチャーンしたかどうかは関係ありません。ターゲット列には、最初の 6 か月以内にサブスクリプションをキャンセルしたかどうかのみが示されます。

これで、行を相互に比較できるトレーニング データセットができました。このデータセットでモデルをトレーニングすると、少なくとも 1 か月以上契約している新規顧客を対象に、最初の 1 か月間の顧客の行動と、トレーニング済みのモデルを使用して、最初の 6 か月以内にチャーンするかどうかを予測できます。

多項分類の例: アヤメの花びら

この例では、アヤメの花に関する大規模なサンプル データを使用します。それぞれの花について、花びらとがく片の長さおよび幅、さらに属するアヤメの種類を記録しました。今後、新しいアヤメの花を見つけたときに、がく片の長さ、がく片の幅、花びらの長さ、花びらの幅から、どの種類のアヤメであるかを予測できるようにします。

収集データのサンプル

トレーニング データのサンプルを含むテーブル。

関数を履歴データに適合させる機械学習アルゴリズムに、収集したデータを入力します。このような関数は、他の 4 つの変数の値に基づいて予測される種類を出力します。出力は、カテゴリの離散セットからのカテゴリです。

予測を行うデータは、アルゴリズムをトレーニングしたデータと統計的に類似しているという前提で作業していることに注意してください。トレーニング データセットに 3 種類のアヤメしか存在しない場合、このトレーニング済みアルゴリズムを使用してそれらの種類の花についてのみ予測できます。機械学習アルゴリズムが、トレーニング データセットから認識するようにトレーニングされていないパターンを予測することは期待できません。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。