実験の構成
実験の構成は、ターゲットの選択と、モデルがターゲットを予測するために使用する特徴量の選択で構成されます。いくつかのオプション設定を構成することもできます。
ターゲットの選択をサポートするために、履歴データセットが分析され、データセットの各列に関する要約統計が表示されます。いくつかの自動前処理のステップがデータセットに適用され、適切なデータのみが含まれるようになっています。データの前処理の詳細については、「自動データ準備と変換」を参照してください。
v1 を実行後、モデル のトレーニングがさらに必要な場合には、新しい実験バージョンを作成できます。詳細については、「モデルの改良」を参照してください。
要件と権限
ML 実験を操作するためのユーザー要件については、「実験の作業」を参照してください。
ビュー
デフォルトのビューはスキーマ ビューで、データセットの各列は情報と統計を含むスキーマの行で表されます。各列の詳細情報とサンプル データは、データ ビューからも確認できます。 および をクリックすると、ビューが切り替わります。
をクリックすると、実験構成 サイド パネルを開閉できます。ここには、実験および現在の構成に関する情報が表示されます。
ターゲットの選択
ターゲット列には、機械学習モデルで予測する値が含まれています。最初のトレーニングを開始するまでは、ターゲット列を変更できます。開始後は編集できなくなります。
次の手順を実行します。
-
列にカーソルを合わせ、表示される アイコンをクリックします。
ターゲット列が で示され、他の使用可能な列は自動的に特徴量として選択されます。
ターゲットが選択されると、実験の最初のバージョンの実行を開始できます。詳細については、「実験のトレーニング」を参照してください。この時点で追加の構成を実行できます (以下で説明)。または、トレーニング結果を確認した後に構成を調整することもできます。
実験トレーニングをナビゲートすると、データがどのように解釈および処理されるかの説明が表示されます。詳細については、「トレーニング データに見られる一般的なインサイト」を参照してください。
作成されたモデルの種類の決定
ターゲットとして選択する列に応じて、実験で作成されるモデルの種類が決まります。これは、モデルのトレーニングにどのアルゴリズムを使用するかを決定する一因にもなります。データセット内の特定の列は、実験のターゲットとして選択できない場合や、特定の処理が適用されている場合があります。
モデルの種類は次のとおりです。
-
二項分類モデル
-
多項分類モデル
-
回帰モデル
以下の表は、使用されるモデルの種類を決定するターゲット内の要素をまとめたものです。
モデルの種類 | 列内のユニーク値の数 | 特徴量タイプが必要です | 追加情報 |
---|---|---|---|
二項分類 | 2 | 任意 | - |
多項分類 | 3-10 | 任意 | 数値以外のクラスが 10 件を超える列は、ターゲットとして選択できません。 |
回帰 | 10 件を超える | 数値 | - |
特徴量列の選択
ターゲット セットを使用すると、モデルのトレーニングに含める他の使用可能な列を選択できます。モデルに含めない特徴量を除外します。列はデータセットに残りますが、トレーニング アルゴリズムでは使用されないことに注意してください。
[実験構成] パネルの上部に、データセットのセルの数が表示されます。数がデータセットの制限を超えている場合は、特徴量を除外して制限内にできます。
次のような方法で特徴量列を選択できます。
-
含めない特徴量のチェックボックスを手動でオフにする。
-
[すべての特徴量を除外] をクリックしてから、含める特徴量のみを選択する。
-
検索を行い、フィルタリングされた検索結果のすべての特徴量を除外または含める。
-
実験の最初のバージョンを実行した後、[含める上位特徴量の数] を定義する。
特徴量を選択すると、特徴量タイプが自動的に割り当てられます。可能な特徴量タイプは次のとおりです。
-
カテゴリ
-
数値
-
日付
-
フリー テキスト
特徴量タイプは、特徴量列に含まれるデータに基づいて割り当てられます。特徴量が特定の基準を満たしている場合、自動エンジニアリング特徴量の基礎となるようにステージングされる可能性があります。必要に応じて、その特徴量を自動特徴量エンジニアリングに使用するかどうかを変更できます。自動特徴量エンジニアリングの詳細については、「自動特徴量エンジニアリング」を参照してください。
データセット内の特定の列は、実験の特徴量として選択できない場合や、特定の処理が適用されている場合があります。データの解釈と処理の方法の説明は、実験トレーニングを実施するにしたがい、表示されます。詳細については、「トレーニング データに見られる一般的なインサイト」を参照してください。
アルゴリズムの選択
使用可能なすべてのアルゴリズムはデフォルトで含まれており、使用しないアルゴリズムは除外できます。通常は、最初のトレーニング結果を確認したときに、モデル改良の一環としてこの作業を実行します。詳細については、「モデルの改良」を参照してください。
特徴量タイプの変更
データセットがロードされると、列はデータ タイプおよび他の特性に基づいて、カテゴリ、数値、日付、フリー テキストとして扱われます。場合によっては、この設定の変更が必要になる可能性があります。
例えば、曜日が 1 ~ 7 の数字で表される場合、それぞれの数字はカテゴリ値を表します。デフォルトでは、ランク付けされた連続数値として処理されるため、カテゴリとして処理されるように構成を手動で変更する必要があります。カテゴリ特徴量タイプを数値特徴量タイプに変換することもできます。
列に日付と時刻の情報が含まれていると識別された場合は、新しく生成された自動設計特徴量のベースとして列が使用されます。この場合、元の列 (親特徴量) には日付特徴量タイプが付与されているものとして扱われます。親特徴量は、日付特徴量タイプからカテゴリ別特徴量タイプに変更できます。 ただし、これを変更すると、実験トレーニングで自動設計特徴量を使用することはできなくなります。
次の手順を実行します。
-
[特徴量タイプ] 列で、 をクリックします。
-
リストで値を選択します。
[データ処理] の [実験構成] パネルで、特徴量タイプが変更されたすべての列を確認できます。
データセットの変更
トレーニング データセットは、最初の実験バージョンを実行する前、さらに任意のバージョンを実行した後に変更することができます。
最初のバージョンを実行する前にデータセットを変更すると、データセットの変更前にあったすべての構成が失われます。
次の手順を実行します。
[トレーニング データ] の[実験構成] パネルで、[データセットを変更] をクリックします。
新しいデータセットを選択します。
モデル改良時のデータセット変更と更新 (実験バージョンの実行後) に関する詳細については、「データセットの変更と更新」を参照してください。
ハイパーパラメーターの最適化の構成
ハイパーパラメーターの最適化を使用して、モデルを最適化できます。これは高度なオプションであり、トレーニング時間が大幅に増加する可能性があることに注意してください。詳細については、「ハイパーパラメーターの最適化」を参照してください。
次の手順を実行します。
[実験構成] パネルで、[モデルの最適化] セクションを展開します。
[ハイパーパラメーターの最適化] チェックボックスを選択します。
必要に応じて、最適化の時間制限を設定します。デフォルトの制限時間は 1 時間です。
トレーニング データに見られる一般的なインサイト
データセットの品質によっては、実験構成でデータの特定の部分を使用する方法が制限される場合があります。スキーマ ビューの [インサイト] 列は、データ フィールドの特定の特性と、機械学習アルゴリズムの処理方法を識別するのに役立ちます。
次の表は、スキーマに表示される可能性のあるインサイトを示しています。
インサイト | 意味 | 構成への影響 |
---|---|---|
定数 | 列は、すべての行で同じ値を持ちます。 | 列をターゲットまたは含まれる特徴量として使用することはできません。 |
One-hot encoded | 特徴量タイプはカテゴリで、列に 13 個以下の一意の値があります。 | 構成に影響はありません。 |
インパクト エンコーディング済み | 特徴量タイプはカテゴリで、列に 14 個以上の一意の値があります。 | 構成に影響はありません。 |
高いカーディナリティ | 列に一意の値が多すぎるため、特徴量として使用するとモデルのパフォーマンスに悪影響を及ぼす可能性があります。 | 列をターゲットとして使用することはできません。特徴量として自動的に除外されますが、必要に応じて含めることができます。 |
まばらなデータ | 列に NULL 値が多すぎます。 | 列をターゲットまたは含まれる特徴量として使用することはできません。 |
過小評価されたクラス | 列に 10 行未満のクラスがあります。 | 列はターゲットとして使用できませんが、特徴量として含めることができます。 |
<number of> 個の自動設計特徴量 | 列は、自動設計特徴量の生成に使用できる親特徴量です。 | この親特徴量が日付特徴量として解釈されると、自動的に構成から削除されます。代わりに、これから生成できる自動設計の日付特徴量の使用を推奨します。この設定を上書きして、自動設計特徴量以外の特徴量を含めることができます。 |
自動設計の機能 | 列は、親日付特徴量から生成できる、または生成された自動設計特徴量です。元のデータセットにはありません。 | 実験トレーニング中に、これらの自動設計特徴量を 1 つ、または複数削除することができます。親特徴量の特徴量タイプをカテゴリ別に切り替えると、すべての自動設計特徴量が削除されます。 |
日付として処理できませんでした | 列には日付と時刻の情報が含まれている可能性がありますが、自動設計の日付特徴量の生成に使用できませんでした。 | 特徴量は構成からドロップされます。自動設計特徴量が以前にこの親特徴量から生成されている場合、それらは今後の実験バージョンからは削除されます。特徴量は引き続き実験で使用できますが、特徴量タイプをカテゴリ別に切り替える必要があります。 |
利用可能なフリー テキスト | この列は、フリー テキスト特徴量として使用できる可能性があります。 | フリー テキスト特徴量タイプが列に割り当てられます。実験バージョンを実行して、特徴量をフリー テキストとして処理できるかどうかを確認する必要があります。 |
フリー テキスト | この列にはフリー テキストが含まれていることが確認されています。フリー テキストとして処理できます。 | 特徴量の追加の構成は必要ありません。 |
フリー テキストとして処理できませんでした | さらに分析すると、この列はフリー テキストとして処理できません。 | 次の実験バージョンでは、構成からその特徴量の選択を解除する必要があります。特徴量のカーディナリティが高くない場合は、代わりに特徴量タイプをカテゴリに変更することもできます。 |