トレーニングデータに関するインサイトの表示

トレーニングデータを追加し、トレーニングのバージョンを実行すると、データがどのように処理されているかについてのインサイトにアクセスできます。[インサイト] により、ドロップされた特徴量、利用できない特徴量、特別な処理でエンコードされる特徴量など、実験内のターゲットと特徴量に関する情報が提供されます。

[インサイト] 列は、 [構成/トレーニングデータ] タブにあるスキーマビューに表示されます。テーブルデータビューでは、省略されたインサイトも利用できます。インサイトは、実験内でトレーニングされたモデルごとに個別に作成されます。

トレーニングデータセットの各特徴量列に関するインサイト — スキーマビューのインサイト列

インサイトは次のときに生成されます:

トレーニングデータを追加または変更した後で、まだ実験バージョンを実行していない。
各実験バージョンが実行された後。トレーニングされたモデルごとに個別のインサイトのセットが作成されます。

バージョンを実行する前と後では、インサイトが異なる場合があります。これは、トレーニングが開始されると、Qlik Predict がデータを前処理し、データの問題をさらに診断できるためです。詳細については、「自動データ準備と変換」を参照してください。

トレーニング前にインサイトを表示する

実験のバージョンを実行する前に、インサイトを分析して、現在のトレーニングデータがどのように解釈されているかを確認できます。これらのインサイトは、バージョンを実行した後に変更される可能性があります。

次の手順を実行します。

実験では、実験バージョンに使用するトレーニングデータが追加されていることを確認してください。
[構成/トレーニングデータ] タブを開きます。
スキーマビューになっていることを確認してください。
[インサイト] 列を分析します。ツールヒントは、インサイトの背後にある追加のコンテキストを提供します。各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。

モデルのインサイトを表示する

モデルの実験バージョンのトレーニングが完了したら、モデルを選択し、データがどのように処理されたかを調べます。

次の手順を実行します。

実験バージョンを実行し、 [構成/トレーニングデータ] タブを開きます。
ツールバーのドロップダウンリストからモデルを選択します。
スキーマビューになっていることを確認してください。
[インサイト] 列を分析します。ツールヒントは、インサイトの背後にある追加のコンテキストを提供します。各インサイトの意味の詳細については、「データセットのインサイトの解釈」を参照してください。

データセットのインサイトの解釈

次の表は、スキーマに表示される可能性のあるインサイトについての詳細を示しています。

一般的なインサイト

データセットのインサイト - 一般
インサイト	意味	構成への影響	インサイトが決定されたとき	参照ドキュメント
定数	列は、すべての行で同じ値を持ちます。	列をターゲットまたは含まれる特徴量として使用することはできません。	バージョンの実行前と実行後	濃度
ワンホットエンコーディング	特徴量タイプはカテゴリで、列に 13 個以下の一意の値があります。	構成に影響はありません。	バージョンの実行前と実行後	カテゴリエンコーディング
インパクトエンコーディング済み	特徴量タイプはカテゴリで、列に 14 個以上の一意の値があります。	構成に影響はありません。	バージョンの実行前と実行後	カテゴリエンコーディング
高いカーディナリティ	列に一意の値が多すぎるため、特徴量として使用するとモデルのパフォーマンスに悪影響を及ぼす可能性があります。	列をターゲットとして使用することはできません。特徴量として自動的に除外されますが、必要に応じて含めることができます。	バージョンの実行前と実行後	濃度
まばらなデータ	列に NULL 値が多すぎます。	列をターゲットまたは含まれる特徴量として使用することはできません。	バージョンの実行前と実行後	Null の代入
過小評価されたクラス	列に 10 行未満のクラスがあります。	列はターゲットとして使用できませんが、特徴量として含めることができます。	バージョンの実行前と実行後	-
特徴量変換が失敗しました	特徴量の特徴量タイプが既定のタイプから手動で変更されました。この構成で、エラーが発生しました。	この特徴量変換では実験バージョンを正常に実行できません。特徴量の特徴量タイプを以前の値に戻すか、トレーニングから特徴量を除外してください。	バージョンの実行後	特徴量タイプの変更

自動特徴量エンジニアリングのインサイト

データセットのインサイト - 自動特徴量エンジニアリング
インサイト	意味	構成への影響	インサイトが決定されたとき	参照ドキュメント
<number of> 個の自動設計特徴量	列は、自動設計特徴量の生成に使用できる親特徴量です。	この親特徴量が日付特徴量として解釈されると、自動的に構成から削除されます。代わりに、これから生成できる自動設計の日付特徴量の使用を推奨します。この設定を上書きして、自動設計特徴量以外の特徴量を含めることができます。	バージョンの実行前と実行後	自動特徴量エンジニアリング
自動設計の機能	列は、親日付特徴量から生成できる、または生成された自動設計特徴量です。元のデータセットにはありません。	実験トレーニング中に、これらの自動設計特徴量を 1 つ、または複数削除することができます。親特徴量の特徴量タイプをカテゴリ別に切り替えると、すべての自動設計特徴量が削除されます。	バージョンの実行前と実行後	自動特徴量エンジニアリング
日付として処理できませんでした	列には日付と時刻の情報が含まれている可能性がありますが、自動設計の日付特徴量の生成に使用できませんでした。	特徴量は構成からドロップされます。自動設計特徴量が以前にこの親特徴量から生成されている場合、それらは今後の実験バージョンからは削除されます。特徴量は引き続き実験で使用できますが、特徴量タイプをカテゴリ別に切り替える必要があります。	バージョンの実行後	自動特徴量エンジニアリング
利用可能なフリーテキスト	この列は、フリーテキスト特徴量として使用できる可能性があります。	フリーテキスト特徴量タイプが列に割り当てられます。実験バージョンを実行して、特徴量をフリーテキストとして処理できるかどうかを確認する必要があります。	バージョンの実行後	自動特徴量エンジニアリング
フリーテキスト	この列にはフリーテキストが含まれていることが確認されています。フリーテキストとして処理できます。	特徴量の追加の構成は必要ありません。	バージョンの実行後	自動特徴量エンジニアリング
フリーテキストとして処理できませんでした	さらに分析すると、この列はフリーテキストとして処理できません。	次の実験バージョンでは、構成からその特徴量の選択を解除する必要があります。特徴量のカーディナリティが高くない場合は、代わりに特徴量タイプをカテゴリに変更することもできます。	バージョンの実行後	自動特徴量エンジニアリング

インテリジェントモデル最適化のインサイト

データセットのインサイト - インテリジェントモデル最適化
インサイト	意味	構成への影響	インサイトが決定されたとき	参照ドキュメント
ターゲット漏洩	特徴量はターゲット漏洩の影響を受ける疑いがあります。その場合は、予測しようとしているターゲット列に関する情報が含まれています。ターゲット漏洩のある特徴量は、モデルのパフォーマンスに関して誤った確信を与える可能性があります。実世界の予測では、モデルのパフォーマンスが大きく低下します。	この特徴量はモデルのトレーニングに使用されていません。	バージョンの実行後	データ漏洩
低い Permutation Importance	この特徴量は、モデルの予測にほとんど影響を与えません。これらの特徴量を削除すると、統計ノイズが減少し、モデルのパフォーマンスが向上します。	この特徴量はモデルのトレーニングに使用されていません。	バージョンの実行後	Permutation Importance を理解する
相関が高い	この特徴量は、実験内の 1 つ以上の他の特徴量と高い相関関係があります。互いに相関性の高い特徴量があると、モデルのパフォーマンスは低下します。	この特徴量はモデルのトレーニングに使用されていません。相関性が高い特徴量は、相関性が高いためにドロップされたのではなく、Permutation Importance が低いなどの別の理由でドロップされた可能性があります。	バージョンの実行後	相関

時系列予測のインサイト

データセットのインサイト - 時系列予測
インサイト	意味	構成への影響	インサイトが決定されたとき	参照ドキュメント
利用可能な日付インデックス	この特徴量は、時系列実験の日付インデックスとして使用できる可能性があります。	時系列の日付インデックスとして使用する場合、列のデータは、将来どのくらいの期間を予測できるかなど、時系列構成の側面に影響を及ぼす可能性があります。日付インデックスの値は、一定の時間間隔で各行または一意のグループ値ごとに増加する必要があります。	バージョンの実行後	時系列実験の作業日付インデックス

バイアス検出のインサイト

データセットのインサイト - バイアス検出
インサイト	意味	構成への影響	インサイトが決定されたとき	参照ドキュメント
データバイアスが検出されました	ターゲット列の値に関して、一部のグループ (値) は他のグループと比較して出現頻度が低くなっています。	バイアス検出結果を分析して次のステップを決定します。これには、特徴量の削除、データセットの変更、または修正されたフレームワークを用いた新しい実験の実施などが含まれます。	バージョンの実行後	機械学習モデルにおけるバイアスの検出
表現バイアスが検出されました	トレーニング済みモデルが、特徴量からのデータを使用して予測を作成する方法にバイアスが検出されました。	バイアス検出結果を分析して次のステップを決定します。これには、特徴量の削除、データセットの変更、または修正されたフレームワークを用いた新しい実験の実施などが含まれます。	バージョンの実行後	機械学習モデルにおけるバイアスの検出

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください