Création de nouvelles colonnes de caractéristiques
L'ingénierie des caractéristiques consiste à créer de nouvelles colonnes de caractéristiques à partir des colonnes existantes. Cela peut vous permettre d'augmenter la puissance de prédiction des sources de données que vous avez collectées pour répondre à une question métier.
Par exemple, l'adresse d'un client serait exclue des données d'apprentissage, en raison de la forte cardinalité de ce genre d'informations. Au lieu d'utiliser l'adresse, nous pourrions avoir recours à l'ingénierie des caractéristiques pour créer une colonne de distance. Si nous connaissons l'adresse du client ainsi que différents emplacements de magasins, il est possible de calculer les distances par rapport aux magasins. Les nouvelles colonnes comporteront une valeur numérique qui peut être utilisée pour dévoiler des patterns mesurables dans les données.
Vous pouvez effectuer de l'ingénierie de caractéristiques sur votre jeu de données en préparation à son utilisation dans AutoML. De plus, AutoML suggère de nouvelles caractéristiques qui peuvent être générées automatiquement à partir des caractéristiques existantes.
Examinez les caractéristiques de votre jeu de données pour déterminer les problèmes éventuels ou les améliorations à apporter. L'ingénierie des bonnes caractéristiques nécessite compétences, talent et expérience. Vous recherchez des caractéristiques exprimées de manière à être directement associées à la colonne cible.
Tenez compte des points suivants :
-
La caractéristique doit-elle comporter un facteur temps ?
-
La vitesse de changement est-elle importante ?
-
Une caractéristique doit-elle être normalisée afin de prendre en compte les différences des sous-jeux de données ?
-
Les valeurs nulles ont-elles une signification ?
Caractéristiques auto-conçues
Grâce à l'ingénierie automatique des caractéristiques, de nouvelles caractéristiques sont automatiquement créées à partir de caractéristiques existantes.
AutoML génère des caractéristiques auto-conçues à partir des colonnes qui contiennent des informations de date et d'heure. Ces nouvelles caractéristiques séparent chaque composant des valeurs de la colonne en leurs propres caractéristiques distinctes.
Il est également possible d'appliquer un traitement spécial aux colonnes contenant un texte libre. Les caractéristiques de type texte libre d'origine sont transformées en nouvelles caractéristiques pour améliorer l'apprentissage du modèle.
Les caractéristiques auto-conçues améliorent la valeur prédictive et analytique de vos modèles au fur et à mesure que vous les entraînez. Pour plus d'informations, consultez Ingénierie automatique des caractéristiques.
Exemple : Ingénierie des caractéristiques
Mettez à profit les exemples suivants pour commencer à réfléchir à la manière d'appliquer une ingénierie des caractéristiques capable d'améliorer la nature prédictive de vos données.
Une opportunité de vente va-t-elle être conclue ?
La colonne cible indique si l'opportunité de vente a été conclue (Oui ou Non).
-
Caractéristique initiale : nombre de réunions
-
Caractéristiques alternatives : nombre de réunions par mois ou nombre de réunions au cours d'une phase spécifique
La transformation de la mesure en fonction de la fréquence des réunions prend mieux en compte les changements. La mesure des réunions au cours d'une phase spécifique du processus de vente exprime mieux l'élan commercial et prend en compte le cycle.
Prédiction du montant d'une transaction future
La colonne cible este le montant de la prochaine transaction.
-
Caractéristique initiale : montant de la dernière commande
-
Caractéristiques alternatives : montant de commande moyen ou pourcentage de changement du montant de commande
Le montant moyen tient davantage compte du comportement de commande dans son ensemble. Les changements de pattern d'achat fournissent une valeur normalisée.
Allons-nous perdre un client ?
La colonne cible consiste à savoir si nous allons perdre le client (Oui ou Non).
-
Caractéristique initiale : sentiment du client
-
Caractéristiques alternatives : changement de sentiment du client ou nombre de jours avec le sentiment actuel
La mesure du changement d'impression est plus susceptible d'entraîner une action. Le nombre de jours indique la durée de l'état actuel.
Un employé va-t-il donner sa démission ?
La colonne cible consiste à savoir si un employé va donner sa démission (Oui ou Non).
-
Caractéristique initiale : salaire
-
Caractéristiques alternatives : salaire par rapport aux collègues ou salaire par rapport à la moyenne de l'industrie
La comparaison du salaire par rapport à celui des collègues correspond mieux à l'expérience ou à l'impression de l'employé. La comparaison au salaire moyen de l'industrie correspond mieux au coût d'opportunité de l'employé.
Un lead va-t-il se convertir en opportunité ?
La colonne cible consiste à savoir si un lead va se convertir en opportunité (Oui ou Non).
-
Caractéristique initiale : comment nous avez-vous trouvés ?
-
Caractéristiques alternatives : réponse (Oui ou Non)
Ce qui importe, ici, c'est l'action et non la réponse. Notez que, dans ce cas, une valeur nulle signifie quelque chose : l'inaction.
Dates
Grâce à la fonctionnalité d'ingénierie automatique de caractéristiques d'AutoML, les composants des dates et des horodatages sont automatiquement analysés et séparés dans des colonnes distinctes.
Les dates peuvent également être transformées de bien d'autres manières pour créer plusieurs caractéristiques dans un même jeu de données, telles que :
-
Agrégez les dates en saisons, trimestres ou semestres.
-
Calculez la différence de dates, par exemple, le nombre de jours depuis le dernier achat.