実験の作成と構成
最初のステップとして、実験を作成して構成します。前にアップロードしたトレーニング データセットを使用して、展開し予測できる状態になるまでモデルをトレーニングします。
新しい実験を作成する
次の手順を実行します。
-
Analytics アクティビティ センターの [作成] ページに移動し、 [ML 実験] を選択します。
-
実験の名前を入力します (例: Customer churn tutorial)。
-
必要に応じて、説明とタグを追加します。
-
実験のスペースを選択します。個人スペースまたは共有スペースを選択できます。
-
[作成] をクリックします。
-
トレーニング データセット ファイルを選択します。これは、CSV または QVD のどちらを使用しているかに応じて、次のいずれかになります。
-
AutoML Tutorial - Churn data - train.csv
-
AutoML Tutorial - Churn data - train.qvd
-
データのレビュー
実験の構成を開始する準備は完了していますが、開始する前に、データセットに注目してみましょう。
まず、 [データ] タブから始めます。既定のビューは、 スキーマ ビューです。ここでは、各行がデータセットの列を表すテーブルを確認できます。自動データ作成において、統計と洞察が生成されています。スキーマの右側までスクロールしないと、洞察が表示されない場合があります。
カーディナリティが高いため、AccountID が除外されていることがわかります。これは、列に含まれる一意の値が多すぎることを意味します。Country の特徴量は、すべての行で同じ値という反対の理由で除外されています。これら 2 つの特徴量は、機械学習モデルに何の価値ももたらしません。
また、カテゴリ特徴量の Territory が impact encoded であることもわかります。警告 および情報 アイコンにカーソルを合わせると詳細が表示されます。
データ ビュー をクリックします。このビューでは、サンプル データを含む、各列の詳しい情報を確認できます。
ターゲットの選択
機械学習モデルで顧客チャーンを予測するため、Churned をターゲットとしてデータセットの最後の列で選択します。
次の手順を実行します。
-
スキーマ ビューに戻ります。
-
Churned にカーソルを合わせ、表示されるターゲット アイコンをクリックします。
実験構成パネルで、Churned が選択されていることがわかります。また、どの特徴量が自動的に選択され、除外されるかを確認することもできます。Churned はターゲットであるため、特徴量としては使われません。この実験が二項分類問題として扱われることもわかります。
特徴量の選択
この実験の最初の実行では、既定で選択されたすべての特徴量とアルゴリズムを含めます。ただし、ビジネス知識に基づいて、特定の特徴量がターゲットに影響を与えないことが既にわかっている場合は、この時点でそれらの選択を解除してトレーニングから除外できます。
最適化設定を変更する
既定でインテリジェント モデル最適化がオンになっています。インテリジェント モデル最適化により、AutoML はモデル トレーニングから問題のある特徴量を識別して削除し、ほとんどまたはまったく反復せずに高品質のモデルをトレーニングできるようにします。ただし、このチュートリアルの目的は、特徴量データとトレーニング結果に関する特定の問題を手動で識別する方法について紹介することです。
インテリジェント モデル最適化を使用してモデルをトレーニングする方法の例については、「例 – 自動機械学習によるモデルのトレーニング」を参照してください。
インテリジェントなモデル最適化をオフにして、手動による改良を示してみましょう。
次の手順を実行します。
-
実験構成パネルで、 [モデルの最適化] セクションを展開します。
-
[インテリジェント] から [手動] に切り替えます。
実験のトレーニング
構成が完了し、トレーニングを開始する準備が整いました。
次の手順を実行します。
-
実験ウィンドウの右下隅にある [実験を実行] をクリックします。
実験の実行が終了したら、結果のモデル メトリクスを確認する次のステップに進むことができます。