トレーニング データに関するインサイトの表示
トレーニング データを追加し、トレーニングのバージョンを実行すると、データがどのように処理されているかについてのインサイトにアクセスできます。[インサイト] により、ドロップされた特徴量、利用できない特徴量、特別な処理でエンコードされる特徴量など、実験内のターゲットと特徴量に関する情報が提供されます。
[インサイト] 列は、 スキーマ ビューの [データ] タブにあります。 データビューでは、省略されたインサイトも利用できます。インサイトは、実験内でトレーニングされたモデルごとに個別に作成されます。
インサイトは次のときに生成されます:
-
トレーニング データを追加または変更した後で、まだ実験バージョンを実行していない。
-
各実験バージョンが実行された後。トレーニングされたモデルごとに個別のインサイトのセットが作成されます。
バージョンを実行する前と後では、インサイトが異なる場合があります。これは、トレーニングが開始されると、AutoML がデータを前処理し、データの問題をさらに診断できるためです。詳細については、「自動データ準備と変換」を参照してください。
トレーニング前にインサイトを表示する
実験のバージョンを実行する前に、インサイトを分析して、現在のトレーニング データがどのように解釈されているかを確認できます。 これらのインサイトは、バージョンを実行した後に変更される可能性があります。
次の手順を実行します。
実験では、実験バージョンに使用するトレーニング データが追加されていることを確認してください。
[データ] タブを開きます。
スキーマ ビューになっていることを確認してください。
[インサイト] 列を分析します。ツール ヒントは、インサイトの背後にある追加のコンテキストを提供します。各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。
モデルのインサイトを表示する
モデルの実験バージョンのトレーニングが完了したら、モデルを選択し、データがどのように処理されたかを調べます。
次の手順を実行します。
実験バージョンを実行し、 [データ] タブを開きます。
ツール バーのドロップ ダウン リストからモデルを選択します。
スキーマ ビューになっていることを確認してください。
[インサイト] 列を分析します。ツール ヒントは、インサイトの背後にある追加のコンテキストを提供します。各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。
データセットのインサイトの解釈
次の表は、スキーマに表示される可能性のあるインサイトについての詳細を示しています。
インサイト | 意味 | 構成への影響 | インサイトが決定されたとき | 参照ドキュメント |
---|---|---|---|---|
定数 | 列は、すべての行で同じ値を持ちます。 | 列をターゲットまたは含まれる特徴量として使用することはできません。 | バージョンの実行前と実行後 | カーディナリティ |
One-hot encoded | 特徴量タイプはカテゴリで、列に 13 個以下の一意の値があります。 | 構成に影響はありません。 | バージョンの実行前と実行後 | カテゴリ エンコーディング |
インパクト エンコーディング済み | 特徴量タイプはカテゴリで、列に 14 個以上の一意の値があります。 | 構成に影響はありません。 | バージョンの実行前と実行後 | カテゴリ エンコーディング |
高いカーディナリティ | 列に一意の値が多すぎるため、特徴量として使用するとモデルのパフォーマンスに悪影響を及ぼす可能性があります。 | 列をターゲットとして使用することはできません。特徴量として自動的に除外されますが、必要に応じて含めることができます。 | バージョンの実行前と実行後 | カーディナリティ |
まばらなデータ | 列に NULL 値が多すぎます。 | 列をターゲットまたは含まれる特徴量として使用することはできません。 | バージョンの実行前と実行後 | Null の代入 |
過小評価されたクラス | 列に 10 行未満のクラスがあります。 | 列はターゲットとして使用できませんが、特徴量として含めることができます。 | バージョンの実行前と実行後 | - |
<number of> 個の自動設計特徴量 | 列は、自動設計特徴量の生成に使用できる親特徴量です。 | この親特徴量が日付特徴量として解釈されると、自動的に構成から削除されます。代わりに、これから生成できる自動設計の日付特徴量の使用を推奨します。この設定を上書きして、自動設計特徴量以外の特徴量を含めることができます。 | バージョンの実行前と実行後 | 自動特徴量エンジニアリング |
自動設計の機能 | 列は、親日付特徴量から生成できる、または生成された自動設計特徴量です。元のデータセットにはありません。 | 実験トレーニング中に、これらの自動設計特徴量を 1 つ、または複数削除することができます。親特徴量の特徴量タイプをカテゴリ別に切り替えると、すべての自動設計特徴量が削除されます。 | バージョンの実行前と実行後 | 自動特徴量エンジニアリング |
日付として処理できませんでした | 列には日付と時刻の情報が含まれている可能性がありますが、自動設計の日付特徴量の生成に使用できませんでした。 | 特徴量は構成からドロップされます。自動設計特徴量が以前にこの親特徴量から生成されている場合、それらは今後の実験バージョンからは削除されます。特徴量は引き続き実験で使用できますが、特徴量タイプをカテゴリ別に切り替える必要があります。 | バージョンの実行後 | 日付特徴量エンジニアリング |
利用可能なフリー テキスト | この列は、フリー テキスト特徴量として使用できる可能性があります。 | フリー テキスト特徴量タイプが列に割り当てられます。実験バージョンを実行して、特徴量をフリー テキストとして処理できるかどうかを確認する必要があります。 | バージョンの実行後 | フリー テキスト データの取り扱い |
フリー テキスト | この列にはフリー テキストが含まれていることが確認されています。フリー テキストとして処理できます。 | 特徴量の追加の構成は必要ありません。 | バージョンの実行後 | フリー テキスト データの取り扱い |
フリー テキストとして処理できませんでした | さらに分析すると、この列はフリー テキストとして処理できません。 | 次の実験バージョンでは、構成からその特徴量の選択を解除する必要があります。特徴量のカーディナリティが高くない場合は、代わりに特徴量タイプをカテゴリに変更することもできます。 | バージョンの実行後 | フリー テキスト データの取り扱い |
ターゲット漏洩 | 特徴量はターゲット漏洩の影響を受ける疑いがあります。その場合は、予測しようとしているターゲット列に関する情報が含まれています。ターゲット漏洩のある特徴量は、モデルのパフォーマンスに関して誤った確信を与える可能性があります。実世界の予測では、モデルのパフォーマンスが大きく低下します。 | この特徴量はモデルのトレーニングに使用されていません。 | バージョンの実行後 | データ漏洩 |
低い Permutation Importance | この特徴量は、モデルの予測にほとんど影響を与えません。これらの特徴量を削除すると、統計ノイズが減少し、モデルのパフォーマンスが向上します。 | この特徴量はモデルのトレーニングに使用されていません。 | バージョンの実行後 | Permutation Importance を理解する |
相関が高い | この特徴量は、実験内の 1 つ以上の他の特徴量と高い相関関係があります。互いに相関性の高い特徴量があると、モデルのパフォーマンスは低下します。 | この特徴量はモデルのトレーニングに使用されていません。相関性が高い特徴量は、相関性が高いためにドロップされたのではなく、Permutation Importance が低いなどの別の理由でドロップされた可能性があります。 | バージョンの実行後 | 相関 |