メイン コンテンツをスキップする 補完的コンテンツへスキップ

機械学習の質問の定義

ビジネス ユース ケースを具体的かつ実用的な機械学習の質問に変えることは、簡単ではありません。構造化されたフレームワークに従って、よくある落とし穴を回避し、優れた予測モデルを生成します。

このフレームワークでは、機械学習の質問を定義する方法と、適切に構造化されたすぐに使用できるデータセットを収集する方法について説明します。データセットの準備の詳細については、「トレーニング用のデータセットの準備」を参照してください。

このフレームワークは、次の 4 つの部分で構成されています。

  • イベント トリガー

  • ターゲット

  • 特徴量

  • 予測ポイント

イベント トリガー

イベント トリガーとは、新しい予測を作成するきっかけとなるアクションまたはイベントのことです。各イベント トリガーは、1 行のデータに対応します。

ターゲット

ターゲットとは、予測しようとしている値のことです。価値を定義する方法 (結果) と、価値を決定する時間枠 (ホライズン) の両方が具体的である必要があります。結果とホライズンの定義は、ビジネス コンテキストや利用可能なデータに応じて異なります。ターゲットがビジネス コンテキストに関連していることを確認し、予測された値でどのようなアクションを実行するかを検討してください。

ターゲットは、機械学習アルゴリズムのトレーニングに使用するデータセット内の 1 つの列で表されます。

特徴量

特徴量とは、ターゲット値を予測するために使用されるデータセット内の他の列のことです。どの変数がターゲットに影響を与えるかについての仮説でもあります。この特徴量を使用して、機械学習アルゴリズムはトレーニング中に一般的なパターンを学習し、新しいデータ行を予測します。

トレーニング データセットの大部分は特徴量列で構成され、各特徴量は 1 つの列として表されます。特徴量は、イベント トリガー レベル以上に集約されている必要があります。

特徴量には、固定の特徴量 (イベント トリガー時以前から認識される) 、またはウィンドウに依存する特徴量 (イベント トリガー後、予測ポイントの前にデータが収集される) があります。

予測ポイント

予測ポイントとは、特徴量のデータ収集を停止し、各行のターゲットを予測する指定された時間のことです。正確度 (良質の特徴量データを収集するのに十分なほど遅く予測すること) と実用性 (結果に影響を与えるアクションを実行するのに十分なほど早く予測すること) の間のバランスを取り、予測ポイントをどこに置くべきかを決定します。

イベント トリガーから予測ポイントまでの時間が、データ蓄積ウィンドウとなります。この時間に、特徴量のデータが収集されます。予測ポイントからホライズンまでの期間はアクション ウィンドウであり、予測内容に基づいて行動するために使用される期間です。予測ポイントは、イベント トリガーとターゲット ホライズンの間の任意の場所に配置できます。

例: 構造化されたフレームワーク

次の例は、さまざまなビジネス ユース ケースで構造化されたフレームワークを使用する方法を示しています。フレームワークが段階的に適用される例の詳細については、「構造化されたフレームワークの適用: 顧客チャーンの例」を参照してください。

顧客生涯価値

  • イベント トリガー: 顧客からの初回の注文

  • ターゲット: 最初の 3 年間の合計注文額

    • 数値結果: 金額

    • ホライズンは、顧客の平均的なライフ サイクルの長さに基づく

  • 特徴量: リード ソース、初回の注文金額、初回注文時の割引使用 (「はい」または「いいえ」)、配送状態、配送地域、初回の注文商品数

  • 予測ポイント: 初回の注文から 3 か月後

  • 機械学習の質問: 「顧客の初回の注文から 3 か月後に、次の 33 か月の合計注文金額を予測する」

顧客の再購入

  • イベント トリガー: 顧客からの注文

  • ターゲット: 6 か月以内に別の注文が入る

    • 二項結果: 「はい」または「いいえ」

    • 再購入する顧客の 90% が 6 か月以内に再購入するというデータからホライズンを決定

  • 特徴量: トラフィック ソース、過去の注文数、割引の使用、配送状態、配送地域、注文した製品の数、発送通知メールの開封 (「はい」または「いいえ」)、10 日以内にサイトに戻ったか、マーケティング メールへの登録 (「はい」または「いいえ」)

  • 予測ポイント: 注文から 1 週間後

  • 機械学習の質問: 「顧客が注文してから 1 週間後に、その顧客が 6 か月以内に再度注文するかどうかを予測する」

見込み顧客の変換

  • イベント トリガー: 見込み顧客が作成される

  • ターゲット: 作成から 12 か月以内に成約に変換

    • 二項結果: 「はい」または「いいえ」

    • ホライズンは、過去の販売サイクルの長さに基づく

  • 特徴量: リード ソース、業界、企業規模、最初の 30 日間のタッチポイントの数、30 日以内の会議の予定 (「はい」または「いいえ」)、正確な電話番号 (「はい」または「いいえ」)

  • 予測ポイント: 見込み顧客が作成された 30 日後

  • 機械学習の質問: 「見込み顧客が作成されてから 30 日後に、次の 11 か月以内にその見込み顧客との商談が成約するかを予測する」

学生の卒業

  • イベント トリガー: 学生を受け入れる

  • ターゲット: プログラム開始後 6 年以内に卒業する学生

    • 二項結果: 「はい」または「いいえ」

    • ホライズンは、過去の卒業までの期間に基づく

  • 特徴量: 高校の種類、高校の GPA、SAT/ACT の点数、クラス分け試験の点数、高校から入学キャンパスまでの距離、奨学金のレベル、保護者の学歴、前期の GPA、前期の単位数

  • 予測ポイント: 最初の学期末

  • 機械学習の質問: 「最初の学期末に、学生が 6 年後までに卒業できるかどうかを予測する」

月ごとの売上高

  • イベント トリガー: 月の最初の日

  • ターゲット: 月間販売数

    • 数値結果: 販売数

    • ホライズンは暦月に基づく

  • 特徴量: 製品の種類、月名、四半期、前年同月売上高、2 年前同月売上高 、前月売上高、平均割引率、マーケティング費用

  • 予測ポイント: 月の最初の日

  • 機械学習の質問: 「月の最初の日に、月末までの総販売数を予測する」

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。