実験の構成
実験の構成は、ターゲットの選択と、モデルがターゲットを予測するために使用する特徴量の選択で構成されます。いくつかのオプション設定を構成することもできます。
ターゲットの選択をサポートするために、履歴データセットが分析され、データセットの各列に関する要約統計が表示されます。いくつかの自動前処理のステップがデータセットに適用され、適切なデータのみが含まれるようになっています。データの前処理の詳細については、「自動データ準備と変換」を参照してください。
v1 を実行後、モデル のトレーニングがさらに必要な場合には、新しい実験バージョンを作成できます。詳細については、「モデルの改良」を参照してください。
要件と権限
ML 実験を操作するためのユーザー要件については、「実験の作業」を参照してください。
インターフェイス
次のセクションでは、実験インターフェイスを操作して実験を構成する方法について説明します。インターフェイスの詳細は、実験インターフェイスのナビゲートをご覧ください。
タブ ナビゲーション
実験を作成すると、 [データ] タブが開きます。ここで、実験のターゲットと特徴量を設定できます。
少なくとも 1 つの実験バージョンを実行すると、他のタブを使用できるようになります。これらの他のタブを使用すると、バージョンでトレーニングしたモデルを分析できます。異なる特徴量を選択して後続のバージョンを構成する必要がある場合は、 [データ] タブに戻ることができます。
スキーマ ビューとデータ ビュー
[データ] タブでは、次のビューを切り替えることができます。
-
スキーマ ビュー: 既定のビュー。このビューでは、データセット内の各列は、情報と統計を含むスキーマの行で表されます。
-
データ ビュー: 各列の詳細情報やサンプル データにアクセスするために使用できる代替ビュー。
実験構成パネル
構成を見るをクリックすると、実験トレーニングをさらにカスタマイズできるパネルが開きます。どのタブを表示していても、パネルを開くことができます。このパネルには、多数の追加の構成オプションが用意されています。
実験構成パネルを使用すると、次を実行できます。
-
最初のバージョンをトレーニングする前にターゲットを選択する
-
特徴量を追加または削除する
-
実験の新しいバージョンを構成する
-
トレーニング データセットの変更または更新を選択する
-
アルゴリズムを追加または削除する
-
モデルの最適化設定を変更する
ターゲットの選択
ターゲット列には、機械学習モデルで予測する値が含まれています。最初のトレーニングを開始するまでは、ターゲット列を変更できます。開始後は編集できなくなります。
次の手順を実行します。
スキーマ ビューまたは データ ビューで、列の上にマウスを置きます。
表示される アイコンをクリックします。
ターゲット列が で示され、他の使用可能な列は自動的に特徴量として選択されます。
ターゲットは、トレーニング構成パネルで選択することもできます。
ターゲットが選択されると、実験の最初のバージョンの実行を開始できます。詳細については、「実験のトレーニング」を参照してください。この時点で追加の構成を実行できます (以下で説明)。または、トレーニング結果を確認した後に構成を調整することもできます。
実験トレーニングが進むにつれて、データの解釈と処理の方法の説明が表示されます。詳細は、データセットのインサイトの解釈をご覧ください。
作成されたモデルの種類の決定
ターゲットとして選択する列に応じて、実験で作成されるモデルの種類が決まります。これは、モデルのトレーニングにどのアルゴリズムを使用するかを決定する一因にもなります。データセット内の特定の列は、実験のターゲットとして選択できない場合や、特定の処理が適用されている場合があります。
モデルの種類は次のとおりです。
二項分類モデル
多項分類モデル
回帰モデル
以下の表は、使用されるモデルの種類を決定するターゲット内の要素をまとめたものです。
モデルの種類 | 列内のユニーク値の数 | 特徴量タイプが必要です | 追加情報 |
---|---|---|---|
二項分類 | 2 | 任意 | - |
多項分類 | 3-10 | 任意 | 数値以外のクラスが 10 件を超える列は、ターゲットとして選択できません。 |
回帰 | 10 件を超える | 数値 | - |
実験でトレーニングされるモデルの種類を確認するには、 構成を見るをクリックし、 [アルゴリズム] を展開します。モデルの種類はセクションのタイトルに表示されます。
特徴量列の選択
ターゲット セットを使用すると、モデルのトレーニングに含める他の使用可能な列を選択できます。モデルに含めない特徴量を除外します。列はデータセットに残りますが、トレーニング アルゴリズムでは使用されないことに注意してください。
実験構成パネルの上部に、データセットのセルの数が表示されます。数がデータセットの制限を超えている場合は、特徴量を除外して制限内にできます。
次のような方法で特徴量列を選択できます。
スキーマ ビューとデータ ビュー内
メイン ビューでは、次を実行できます。
[利用可能な特徴量すべてを含める] を選択解除してから、含める特徴量のみを選択する。
含めない特徴量のチェックボックスを手動でオフにする。
検索を行い、フィルタリングされた検索結果のすべての特徴量を除外または含める。
トレーニング カスタマイズ パネル内
実験構成パネルを展開すると、次を実行できます。
含めない特徴量のチェックボックスを手動でオフにする。
実験の最初のバージョンを実行した後、[含める上位特徴量の数] を定義する。
特徴量を選択すると、特徴量タイプが自動的に割り当てられます。可能な特徴量タイプは次のとおりです。
カテゴリ
数値
日付
フリー テキスト
特徴量タイプは、特徴量列に含まれるデータに基づいて割り当てられます。特徴量が特定の基準を満たしている場合、自動設計特徴量の基礎となるようにステージングされる可能性があります。必要に応じて、その特徴量を自動特徴量エンジニアリングに使用するかどうかを変更できます。自動特徴量エンジニアリングの詳細については、「自動特徴量エンジニアリング」を参照してください。
データセット内の特定の列は、実験の特徴量として選択できない場合や、特定の処理が適用されている場合があります。データの解釈と処理の方法の説明は、実験トレーニングを実施するにしたがい、表示されます。詳細については、「データセットのインサイトの解釈」を参照してください。
アルゴリズムの選択
使用可能なすべてのアルゴリズムはデフォルトで含まれており、使用しないアルゴリズムは除外できます。通常は、最初のトレーニング結果を確認したときに、モデル改良の一環としてこの作業を実行します。詳細については、「モデルの改良」を参照してください。
特徴量タイプの変更
データセットがロードされると、列はデータ タイプおよび他の特性に基づいて、カテゴリ、数値、日付、フリー テキストとして扱われます。場合によっては、この設定を変更する必要があります。
例えば、曜日が 1 ~ 7 の数字で表される場合、それぞれの数字はカテゴリ値を表します。デフォルトでは、ランク付けされた連続数値として処理されるため、カテゴリとして処理されるように構成を手動で変更する必要があります。
列に日付と時刻の情報が含まれていると識別された場合は、新しく生成された自動設計特徴量のベースとして列が使用されます。この場合、元の列 (親特徴量) には日付特徴量タイプが付与されているものとして扱われます。
親特徴量は、日付特徴量からカテゴリ特徴量または数値特徴量に変更できます。たとえば、日付として識別されている特徴量を、文字列または数値として扱う必要がある場合に便利です。これを実行すると、実験トレーニングで自動設計特徴量を使用することはできなくなります。
次の手順を実行します。
スキーマ ビューで、特徴量を見つけます。
この特徴量の [特徴量タイプ] 列で、 をクリックします。
リストで値を選択します。
データ ビューから特徴量タイプを変更することもできます。特徴量を見つけて、現在の特徴量タイプの横にある をクリックします。リストで値を選択します。
[データ処理] の実験構成パネルで、特徴量タイプが変更されたすべての列を確認できます。
予測への影響
特徴量の特徴量タイプを手動で変更し、結果のモデルを展開すると、そのモデルで実行された予測で使用される適用データセット内の特徴量に、特徴量タイプのオーバーライドが適用されます。
データセットの変更
トレーニング データセットは、最初の実験バージョンを実行する前、さらに任意のバージョンを実行した後に変更することができます。
最初のバージョンを実行する前にデータセットを変更すると、データセットの変更前にあったすべての構成が失われます。
次の手順を実行します。
[トレーニング データ] の実験構成パネルで、 [データセットを変更] をクリックします。
新しいデータセットを選択します。
モデル改良時のデータセット変更と更新 (実験バージョンの実行後) に関する詳細については、「データセットの変更と更新」を参照してください。
モデル最適化の構成
モデルを最適化するために、次の設定をカスタマイズできます。
インテリジェント モデル最適化のオン/オフ
ハイパーパラメータ最適化のオン/オフ
タイムアウェア トレーニングのオン/オフ
これらのオプションは、実行する実験のバージョンごとにオンまたはオフにできます。
インテリジェント最適化の構成
既定では、実験にはインテリジェント モデル最適化が使用されます。 インテリジェント モデル最適化により、AutoML は特徴量選択を繰り返し、データに高度な変換を適用することで、モデルの改良プロセスを処理します。
インテリジェント最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
この設定をオフにすると、トレーニングするモデルを手動で改良できます。たとえば、インテリジェント モデル最適化を使用してモデル トレーニングを開始し、その後、v2 の手動改良に切り替えて構成をさらに調整することができます。
次の手順を実行します。
構成を見るをクリックします。
少なくとも 1 つのバージョンの実験をすでに実行している場合は、 [新しいバージョン] をクリックします。
パネルで、 [モデル最適化] を展開します。
[インテリジェント] から [手動] に切り替えます。
スライダーを使用して、トレーニングの最大実行期間を設定します。
ハイパーパラメーターの最適化の構成
ハイパーパラメーターの最適化を使用して、モデルを最適化できます。これは高度なオプションであり、トレーニング時間が大幅に増加する可能性があることに注意してください。インテリジェント最適化をオフにすると、ハイパーパラメーターの最適化を使用できます。
詳細は、ハイパーパラメーターの最適化をご覧ください。
次の手順を実行します。
構成を見るをクリックします。
少なくとも 1 つのバージョンの実験をすでに実行している場合は、 [新しいバージョン] をクリックします。
パネルで、 [モデル最適化] を展開します。
[インテリジェント] から [手動] に切り替えます。
[ハイパーパラメーターの最適化] チェックボックスを選択します。
必要に応じて、最適化の時間制限を設定します。デフォルトの制限時間は 1 時間です。
タイムアウェア トレーニングの構成
時系列軸を考慮してモデルをトレーニングする場合は、実験バージョンのタイムアウェア トレーニングを有効にします。このオプションを使用するには、データセット内に関連する時系列情報を含む列が必要です。
タイムアウェア トレーニングがオンになっている場合、AutoML は特殊なクロス検証と null 補完プロセスを使用してモデルをトレーニングします。
詳細については、「タイムアウェア モデルの作成」および「時間ベースのクロス検証」を参照してください。
次の手順を実行します。
構成を見るをクリックします。
少なくとも 1 つのバージョンの実験をすでに実行している場合は、 [新しいバージョン] をクリックします。
パネルで、 [モデル最適化] を展開します。
[時間ベースのテスト - トレーニング分割] で、データの並べ替えに使用する [日付インデックス] を選択します。
トレーニング データに関する洞察の表示
実験の [データ] タブでは、トレーニング データの処理に関する洞察を表示できます。この情報は、 スキーマ ビューの [インサイト] 列に表示されます。表示される情報は、現在のトレーニング データを使用してバージョンを実行したかどうかに応じて異なります。[インサイト] 列の変更は、特徴量が使用できない理由や、特徴量が自動的に削除された理由を特定するのに役立ちます。
各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。