自動特徴量エンジニアリング
自動特徴量エンジニアリングを使用すると、Qlik Predict はトレーニング データ内の既存の特徴量を使用して新しい特徴量を作成できます。新しく自動設計されたこれらの特徴量により、データ内で新しいパターンを発見し、使用する機械学習モデルの性能を大幅に改善できます。Qlik Predict は、日付特徴量エンジニアリングとフリー テキスト特徴量エンジニアリングをサポートしています。
背景
特徴量エンジニアリングとは、現在の特徴量列から新しい特徴量列を作成するプロセスのことです。Qlik Predict は、特定のタイプのデータ処理を向上させるために特徴量エンジニアリングを自動的に実行することができます。特徴量エンジニアリングの一般情報については、「新しい特徴量列の作成」を参照してください。
自動特徴量エンジニアリングが可能となるタイミングを特定する
実験で使用するデータセットを選択した後、データセットは分析され、その中の列に特定のデータ タイプが含まれているとして識別されます。これらのデータ タイプにより、Qlik Predict はデータセット内の各列に特徴量タイプを割り当てます。各列には、次の特徴量タイプの1つが付与されます。
-
カテゴリ
-
数値
-
Date
-
フリー テキスト
可能な場合、Qlik Predict は該当する親特徴量から生成できる自動設計特徴量のリストを表示します。自動設計特徴量のリストは、前処理を開始するとさらに絞り込まれ、特徴量の数が減少します。実験には自動設計特徴量を含めることを推奨しますが、これはオプションです。トレーニングを開始する前に、また各新規実験バージョンを構成する際に、個別の自動設計特徴量を削除することができます。
実験トレーニングを開始する前に完了したプロセスに関する情報については、「自動データ準備と変換」を参照してください。
日付特徴量エンジニアリング
トレーニング データで日付および日時列が検出されると、これらの列から新しい日付特徴量が自動的に作成されます。詳細については、「日付特徴量エンジニアリング」を参照してください。
フリー テキストの処理
モデルのトレーニング時に、フリー テキスト データの特別な処理がサポートされます。詳細については、「フリー テキスト データの取り扱い」を参照してください。