自動データ準備と変換

実験用に選択したデータセットは、モデルトレーニング用に準備するために自動的に前処理されます。前処理ステップには、データの準備と変換が含まれます。前処理によりデータの品質が向上し、正確な結果を生成するモデルを取得できます。

データの前処理には、さまざまなデータサイエンス手法が使用されます。ほとんどのステップはデフォルトで実行され、多くのユースケースでうまく機能します。これらのデフォルトのステップと基本的な概念を知ることで、データをモデルのトレーニングに使用する前に、特定のユースケースでどのように扱う必要があるかを理解できるようになります。

実験の設定

前処理を開始する前に、Qlik Predict はいくつかの準備工程を実行し、データが扱われる方法のプレビューを提供します。一部のステップは、実験の種類やその他の要因に応じて異なります。以下のステップが適用される場合があります。

データセット内の列をカテゴリ、数値、日付、フリーテキスト特徴量タイプとして分類します。
- Float、Double、Decimal データ型は常に数値とみなされます。
- 平均 50 文字未満の文字列データ型を含む列は、カテゴリとして分類されます。
- 平均 50 文字以上の文字列データ型を含む列は、フリーテキストとして分類されます。ただし、現段階では、これらの列がフリーテキスト特徴量として使用できるかどうかは保証されていません。追加の要件は前処理中にチェックされます。「前処理ステップ」を参照してください。
- 整数データタイプは常に数値とみなされます。
- 日付とタイムスタンプデータ型は、常に日付特徴量タイプがあるものとみなされます。実験の設定中、Qlik Predict は、親日付特徴量から派生した可能性のある自動設計特徴量をプレビューします。
スパース性、定数、高カーディナリティについて各列をチェックします。次の場合は列を除外します。
- 列の 50% が null 以上である。特徴量に null 値が含まれるレコードを削除すると、有用なトレーニングの例が破棄されてしまう可能性があります。あるいは、値を代入することで例を保存できますが、レコードは現実の近似値にしかなりません。したがって、null 値の数が多い (50% 以上) 特徴量は、多くの場合において除外するほうがよくなります。0 は null とはみなされないことに注意してください。
- 列は、すべての行で同じ値を持つ (定数)。つまり、カーディナリティの低い列です。単一の値しか持たない特徴量には、予測値はありません。
- 列はカテゴリ別で、90% 以上の一意の値がある (高カーディナリティ)。一意の値が多すぎると、トレーニングデータセットを超えてモデルを一般化することが難しくなります。

前処理の開始後、データの処理方法に調整を加えることができます。

前処理ステップ

ターゲット列を選択したら、次のステップは実験の種類に応じて異なります。分類および回帰実験では、ターゲット値が null の行が識別されて分離され、ターゲットがトレーニングセットと認識された行が残ります。時系列実験の場合、欠損したターゲット値は補間されます。

次のステップでは、トレーニングデータセットのデータのみが決定に使用されます。ステップは、メタデータとともに保存され、モデルが予測するための新しいデータに適用されます。

新しい実験バージョンを実行するたびに、含まれる特徴量に対して前処理が実行されます。一部のステップは、実験の種類やその他の要因に応じて異なります。

数値の場合は平均値、カテゴリ値の場合は最頻値を計算し、保存します。
欠損値を代入します。詳細については、「Null の代入」を参照してください。
カテゴリ変数をエンコードします。
時系列モデルの場合、ユーザーが設定した実験プロパティを検証し、トレーニングの終了後にユーザーに追加情報を提供するために、いくつかのステップが実行されます。
- 最大予測ウィンドウが決定されます。
- 日付インデックスの時間ステップが確認されます。
- ユーザーが選択したターゲットグループが検証されます。指定されていない場合は、含まれるカテゴリ特徴量から存在する場合に識別されます。
データセットにある既存の列から新しい特徴量を生成します。これらの新しい自動設計特徴量は、作成するモデルのパフォーマンスと予測能力を向上させることができます。

フリーテキストの可能性があると識別された列は、平均単語数が確認されます。列の平均単語数が 5 単語を超える場合は、自動特徴量エンジニアリングを使用してフリーテキスト特徴量としてエンコードできます。5 単語を超えない場合は、警告が表示されます。フリーテキストとして使用できない場合、カーディナリティが高い特徴量の選択を解除する必要があります。
各列の要約統計を計算して保存し、特徴量スケーリングに使用します。
各列を特徴量スケーリングで標準化します。
バイアス検出のために選択された特徴量に対して分析を実行し、データバイアスメトリクスとそれに対応するインサイトを返します。詳細については、「機械学習モデルにおけるバイアスの検出」を参照してください。
トレーニングデータの自動ホールドアウトと 5 分割クロス検証を使用します。詳細については、「ホールドアウトデータとクロス検証」を参照してください。
より高い確実性でデータセットに関するさまざまな統計を計算します。たとえば、データセットのサイズ、行とセルの数、NULL 値の割合に関する新しい情報が利用可能になる場合があります。詳細については、「トレーニングデータセットとプロファイリングの制限」を参照してください。

詳細を見る

自動特徴量エンジニアリング

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください