Accéder au contenu principal Passer au contenu complémentaire

Création de nouvelles colonnes de caractéristiques

L'ingénierie des caractéristiques consiste à créer de nouvelles colonnes de caractéristiques à partir des colonnes existantes. Cela peut vous permettre d'augmenter la puissance de prédiction des sources de données que vous avez collectées pour répondre à une question métier.

Par exemple, l'adresse d'un client serait exclue des données d'apprentissage, en raison de la forte cardinalité de ce genre d'informations. Au lieu d'utiliser l'adresse, nous pourrions avoir recours à l'ingénierie des caractéristiques pour créer une colonne de distance. Si nous connaissons l'adresse du client ainsi que différents emplacements de magasins, il est possible de calculer les distances par rapport aux magasins. Les nouvelles colonnes comporteront une valeur numérique qui peut être utilisée pour dévoiler des patterns mesurables dans les données.

Vous pouvez effectuer de l'ingénierie de caractéristiques sur votre ensemble de données en préparation à son utilisation dans AutoML. De plus, AutoML suggère de nouvelles caractéristiques qui peuvent être générées automatiquement à partir des caractéristiques existantes.

Nouvelles colonnes de distances par rapport aux différents magasins

Tableau contenant des échantillons de données.

Examinez les caractéristiques de votre ensemble de données pour déterminer les problèmes éventuels ou les améliorations à apporter. L'ingénierie des bonnes caractéristiques nécessite compétences, talent et expérience. Vous recherchez des caractéristiques exprimées de manière à être directement associées à la colonne cible.

Tenez compte des points suivants :

  • La caractéristique doit-elle comporter un facteur temps ?

  • La vitesse de changement est-elle importante ?

  • Une caractéristique doit-elle être normalisée afin de prendre en compte les différences des sous-ensembles de données ?

  • Les valeurs nulles ont-elles une signification ?

Caractéristiques auto-conçues

Grâce à l'ingénierie automatique des caractéristiques, de nouvelles caractéristiques sont automatiquement créées à partir de caractéristiques existantes.

AutoML génère des caractéristiques auto-conçues à partir des colonnes qui contiennent des informations de date et d'heure. Ces nouvelles caractéristiques séparent chaque composant des valeurs de la colonne en leurs propres caractéristiques distinctes.

Il est également possible d'appliquer un traitement spécial aux colonnes contenant un texte libre. Les caractéristiques de type texte libre d'origine sont transformées en nouvelles caractéristiques pour améliorer l'apprentissage du modèle.

Les caractéristiques auto-conçues améliorent la valeur prédictive et analytique de vos modèles au fur et à mesure que vous les entraînez. Pour plus d'informations, voir Ingénierie automatique des caractéristiques.

Exemples : Ingénierie des caractéristiques

Mettez à profit les exemples suivants pour commencer à réfléchir à la manière d'appliquer une ingénierie des caractéristiques capable d'améliorer la nature prédictive de vos données.

Une opportunité de vente va-t-elle être conclue ?

La colonne cible indique si l'opportunité de vente a été conclue (Oui ou Non).

  • Caractéristique d'origine : Nombre de réunions

  • Caractéristiques alternatives : Nombre de réunions par mois ou Nombre de réunions au cours d'une phase spécifique

La transformation de la mesure en fonction de la fréquence des réunions prend mieux en compte les changements. La mesure des réunions au cours d'une phase spécifique du processus de vente exprime mieux l'élan commercial et prend en compte le cycle.

Prédiction du montant d'une transaction future

La colonne cible este le montant de la prochaine transaction.

  • Caractéristique d'origine : Montant de la dernière commande

  • Caractéristiques alternatives : Montant de commande moyen ou Pourcentage de changement du montant de commande

Le montant moyen tient davantage compte du comportement de commande dans son ensemble. Les changements de pattern d'achat fournissent une valeur normalisée.

Allons-nous perdre un client ?

La colonne cible consiste à savoir si nous allons perdre le client (Oui ou Non).

  • Caractéristique d'origine : Impression du client

  • Caractéristiques alternatives : Changement d'impression du client ou Nombre de jours avec l'impression actuelle

La mesure du changement d'impression est plus susceptible d'entraîner une action. Le nombre de jours indique la durée de l'état actuel.

Un employé va-t-il donner sa démission ?

La colonne cible consiste à savoir si un employé va donner sa démission (Oui ou Non).

  • Caractéristique d'origine : Salaire

  • Caractéristiques alternatives : Salaire par rapport aux collègues ou Salaire par rapport à la moyenne de l'industrie

La comparaison du salaire par rapport à celui des collègues correspond mieux à l'expérience ou à l'impression de l'employé. La comparaison au salaire moyen de l'industrie correspond mieux au coût d'opportunité de l'employé.

Un lead va-t-il se convertir en opportunité ?

La colonne cible consiste à savoir si un lead va se convertir en opportunité (Oui ou Non).

  • Caractéristique d'origine : Comment nous avez-vous trouvés ?

  • Caractéristiques alternatives : Réponse (Oui ou Non)

Ce qui importe, ici, c'est l'action et non la réponse. Notez que, dans ce cas, une valeur nulle signifie quelque chose : l'inaction.

Dates

Grâce à la fonctionnalité d'ingénierie automatique de caractéristiques d'AutoML, les composants des dates et des horodatages sont automatiquement analysés et séparés dans des colonnes distinctes.

Les dates peuvent également être transformées de bien d'autres manières pour créer plusieurs caractéristiques dans un même ensemble de données, telles que :

  • Agrégez les dates en saisons, trimestres ou semestres.

  • Calculez la différence de dates, par exemple, le nombre de jours depuis le dernier achat.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !