新しい特徴量列の作成
特徴量エンジニアリングとは、現在の特徴量列から新しい特徴量列を作成するプロセスのことです。これにより、ビジネス上の質問に答えるために収集したソース データから、追加の予測力を得るのに役立ちます。
例えば、顧客の住所はカーディナリティが高いため、トレーニング データから除外されます。住所を使用する代わりに、特徴量エンジニアリングで作成した距離の列を使用できます。顧客の住所とさまざまな店舗の所在地がわかれば、店舗までの距離を計算できます。新しい列には、データの測定可能なパターンが明らかになる数値が含まれます。
AutoML で使用するために準備中のデータセットで、特徴量エンジニアリングを実行できます。さらに、AutoML は、既存の特徴量から自動的に生成できる新しい特徴量を提案します。
データセットの特徴量を確認して、考えられる問題や改善点を判断します。優れた特徴量エンジニアリングには、スキルとビジネス経験が必要です。ターゲット列に直接結び付くような方法で、特徴量を表現する必要があります。
検討事項:
-
特徴量に時間要素を含める必要があるか
-
変化率は重要か
-
データのサブセット間の差異を考慮し、特徴量を正規化する必要があるか
-
null 値に意味があるか
自動設計特徴量
自動特徴量エンジニアリングを使用すると、既存の特徴量から新しい特徴量が自動的に作成されます。
AutoML は、日付と時刻の情報が含まれている列から自動設計特徴量を生成します。これらの新しい特徴量は、列値の各コンポーネントをそれぞれの特徴量に分離します。
さらに、フリー テキストを含む列に特別な処理を適用できます。元のフリー テキストの特徴量は、モデルのトレーニングを改善するために新しい特徴量に変換されます。
自動設計特徴量は、トレーニングするにしたがい、使用するモデルの予測値また分析値を向上させます。詳細については、「自動特徴量エンジニアリング」を参照してください。
例: 特徴量エンジニアリング
次の例を使用して、データの予測性を強化できる特徴量エンジニアリングについてのブレインストーミングを開始します。
販売機会は成立するか
ターゲット列は、販売機会が成立するかどうか (「はい」または「いいえ」) です。
-
元の特徴量: 会議数
-
代替の特徴量: 1 か月あたりの会議数または特定の段階での会議数
測定値を会議の頻度に変換すると、変化をより適切に説明できます。販売プロセスの特定の段階で会議数を測定すると、販売の勢いとサイクルをより適切に表現できます。
将来の取引額を予測する
ターゲット列は、次回の取引額です。
-
元の特徴量: 前回の注文額
-
代替の特徴量: 平均注文額または注文額の変化率
平均額により、注文行動をより幅広く把握できます。購入パターンの変化により、正規化された値が提供されます。
顧客はチャーンするか
ターゲット列は、顧客がチャーンするかどうか (「はい」または「いいえ」) です。
-
元の特徴量: 顧客のセンチメント
-
代替の特徴量: 顧客のセンチメントの変化、または現在のセンチメントの日数
センチメントの変化を測定することで、アクションにつながる可能性が高くなります。日数は、現在の状態の期間を示します。
従業員は自ら退職しているか
ターゲット列は、従業員が退職するかどうか (「はい」または「いいえ」) です。
-
元の特徴量: 給与
-
代替の特徴量: 同業他社と比較した給与、または業界平均と比較した給与
給与を同業他社と比較することで、より従業員の経験やセンチメントに沿った予測になります。業界の平均給与と比較することで、従業員の機会費用に沿った予測になります。
見込み顧客は機会に変換するか
ターゲット列は、見込み顧客が変換されるかどうか (「はい」または「いいえ」) です。
-
元の特徴量: 当社を見つけた方法
-
代替の特徴量: 回答済み (「はい」または「いいえ」)
ここで重要なのはアクションであり、回答の内容ではありません。この場合、null は「非アクション」を意味することに注意してください。
日付
AutoML 自動特徴量エンジニアリングの機能により、日付とタイムスタンプのコンポーネントは自動で個別の列に解析されます。
1 つのデータセットに複数の特徴量を作成するために、以下のように日付を次のようなさまざまな方法でエンジニアリングすることもできます。
-
日付を、季節、四半期、または半期に統合します。
-
最後の購入からの日数など、日付の差を計算します。