Accéder au contenu principal Passer au contenu complémentaire

Ingénierie automatique des caractéristiques

Avec l'ingénierie automatique des caractéristiques, Qlik AutoML peut utiliser des caractéristiques existantes dans vos données d'apprentissage pour créer de nouvelles caractéristiques. Ces nouvelles caractéristiques auto-conçues vous permettent de découvrir de nouvelles tendances dans vos données et peuvent considérablement améliorer les performances de vos modèles d'apprentissage automatique.

L'ingénierie des caractéristiques consiste à créer de nouvelles colonnes de caractéristiques à partir des colonnes existantes. AutoML peut effectuer automatiquement l'ingénierie des caractéristiques pour une meilleure manipulation de certains types de données. Pour obtenir des informations générales sur l'ingénierie des caractéristiques, veuillez consulter Création de nouvelles colonnes de caractéristiques.

Les caractéristiques de type date auto-conçues, ainsi que les caractéristiques parentes dont elles sont dérivées, sont marquées d'une icône Auto-conçu.

Après avoir sélectionné un jeu de données à utiliser pour votre expérimentation, ce dernier est analysé et les colonnes qu'il contient sont identifiées comme contenant certains types de données. Ces types de données permettent à AutoML d'attribuer un type de caractéristique à chaque colonne dans le jeu de données. Chaque colonne se voit attribuer l'un des types de caractéristique suivants :

  • Catégorique

  • Numérique

  • Date

  • Texte libre

Lorsque cela est possible, AutoML affiche une liste de caractéristiques auto-conçues qui peuvent être créées à partir des caractéristiques parentes éligibles. Cette liste de caractéristiques auto-conçues est davantage affinée et réduite au fur et à mesure que le prétraitement commence. Inclure les caractéristiques auto-conçues dans votre expérimentation est recommandé mais facultatif. Vous pouvez supprimer des caractéristiques auto-conçues individuelles avant de commencer l'entraînement, ainsi que lors de la configuration de chaque nouvelle version d'expérimentation.

Pour obtenir plus d'informations sur les processus effectués avant le début de l'entraînement de l'expérimentation, consultez Préparation et transformation automatiques des données.

Ingénierie des caractéristiques de date

AutoML génère des caractéristiques auto-conçues à partir des colonnes éligibles ayant le type de caractéristique « date », qui ont été identifiées comme contenant des informations relatives à la date et à l'heure. Les caractéristiques de type date auto-conçues, ainsi que les caractéristiques parentes dont elles sont dérivées, sont marquées d'une icône Auto-conçu.

Lorsque Qlik Cloud Analytics analyse le jeu de données d'entraînement que vous avez sélectionné pour l'utiliser avec AutoML, il relie certains types de données au type de caractéristique « date ». Cela inclut les types de données suivants :

  • date

  • Datetime

  • Heure

  • Horodatage

Les caractéristiques qui se voient attribuer l'un de ces types de données lors du profilage reçoivent le type de caractéristique « date ». Pour obtenir des informations sur les statistiques de profil disponibles pour vos champs de données, veuillez consulter Profile List view (Mode liste du profil).

Lorsque cela est possible, AutoML affiche une liste de caractéristiques de date auto-conçues qui peuvent être créées à partir de caractéristiques parentes éligibles ayant le type de caractéristique "date". Les caractéristiques de date auto-conçues sont incluses dans l'expérimentation par défaut. Si vous choisissez de les inclure, les nouvelles caractéristiques sont générées après la version 1 de l'expérimentation.

Note InformationsIl est recommandé de ré-entraîner les modèles formés avant le 29 août 2023 s'ils incluent des caractéristiques contenant des dates ou des horodatages.

Les caractéristiques de date auto-conçues ont le type de caractéristique numérique. Elles sont incluses dans l'expérimentation par défaut, mais elles sont facultatives. Vous pouvez en retirer certaines, voire toutes, avant de démarrer l'entraînement de l'expérience, ou lors de la configuration de la prochaine version de l'expérimentation. Lorsque les caractéristiques de date auto-conçues sont incluses, la caractéristique de date parente initiale est retirée de l'expérimentation.

À la place, vous pouvez inclure la caractéristique de date parente comme caractéristique catégorique ou numérique. Dans ce cas, les caractéristiques de date auto-conçues ne sont plus utilisables. Dans la plupart des cas, il est recommandé d'utiliser les caractéristiques auto-conçues disponibles dans votre expérimentation, car elles améliorent les performances de vos modèles d'apprentissage automatique. Toutefois, il peut arriver qu'une colonne soit identifiée comme une caractéristique de date, mais que vous ayez besoin de la traiter comme une caractéristique catégorique ou numérique. Dans ces cas, vous pouvez modifier manuellement le type de caractéristique.

Les caractéristiques de date auto-conçues ne sont pas prises en compte dans la taille du jeu de données d'AutoML (nombre maximal de cellules dans les jeux de données d'entraînement et d'application) spécifiée dans votre abonnement Qlik Cloud. Seules les cellules de la colonne de date d'origine sont comptées.

Vue Schéma montrant les caractéristiques auto-conçues qui peuvent être générées à partir d'une caractéristique de date parente « Date de la facture ». Notez la différence entre le type de données et le type de caractéristique de chaque fonctionnalité.

Vue Schéma lors de l'entraînement de l'expérimentation, montrant la caractéristique parente identifiée comme une caractéristique de date avec les éventuelles caractéristiques auto-conçues qui peuvent être créées à partir de celle-ci.

Utilisation des caractéristiques de date comme cible de l'expérimentation

Dans le rare cas où vous souhaitez utiliser une caractéristique avec des informations de date et d'heure comme cible de votre expérimentation, le type de caractéristique de la colonne sera modifié de date à catégorique, et les caractéristiques auto-conçues seront supprimées. Si vous choisissez une autre cible, puis souhaitez ultérieurement ajouter la caractéristique de date et d'heure en tant que caractéristique régulière, vous devrez éventuellement la modifier manuellement pour qu'elle retrouve le type de caractéristique de date. Si vous restaurez la caractéristique au type de caractéristique de date, les caractéristiques de date auto-conçues seront à nouveau générées.

Pour obtenir plus d'informations sur la manière de modifier les types de caractéristiques, consultez Modification des types de caractéristiques.

Caractéristiques de date auto-conçues disponibles

Lors de la génération des caractéristiques de date auto-conçues à partir d'une colonne de votre jeu de données, AutoML extrait et calcule des composants spécifiques de chaque valeur de date et d'heure, isolant chaque composant dans sa propre colonne. Le tableau ci-dessous répertorie les caractéristiques auto-conçues qui peuvent être générées par AutoML.

Liste des caractéristiques auto-conçues qui peuvent être dérivées d'une caractéristique de date et d'heure.
Caractéristique auto-conçue Type de données Type de caractéristique Description
YEAR Entier Numérique Champ pour l'année extrait directement de la date source ou de l'horodatage.
MONTH Entier Numérique Champ pour le mois extrait directement de la date source ou de l'horodatage.
DAY Entier Numérique Champ pour le jour extrait directement de la date source ou de l'horodatage.
HOUR Entier Numérique Champ pour l'heure extrait directement de l'horodatage source.
MINUTE Entier Numérique Champ pour les minutes extrait directement de l'horodatage source.
SECONDE Entier Numérique Champ pour les secondes extrait directement de l'horodatage source.
DAYOFWEEK Entier Numérique Jour de la semaine, calculé à partir du jour, du mois et de l'année sources.
WEEK Entier Numérique Semaine de l'année, calculé à partir du jour, du mois et de l'année sources.

Pour chaque nouvelle caractéristique créée, le nom de la colonne d'origine comporte en suffixe la caractéristique auto-conçue correspondante.

Caractéristiques de date auto-conçues dans l'onglet Configuration de l'expérimentation

Section Caractéristiques du volet Configuration de l'expérimentation, affichant les caractéristiques auto-conçues.

Caractéristiques de date auto-conçues dans les prédictions

Les caractéristiques de date auto-conçues sont générées lors de l'utilisation du jeu de données d'entraînement pour créer un modèle, qui est déployé et utilisé en tant que déploiement d'apprentissage automatique (ML - Machine Learning) pour effectuer des prédictions sur de nouvelles données (le jeu de données à appliquer).

Lorsqu'un modèle entraîné avec des caractéristiques de date auto-conçues est déployé pour effectuer des prédictions, le jeu de données à appliquer sur lequel vous générez des prédictions n'a pas besoin d'inclure les caractéristiques de date auto-conçues. AutoML génère les caractéristiques auto-conçues pour le jeu de données à appliquer avant de procéder aux prédictions. Cependant, le jeu de données à appliquer doit inclure la caractéristique de date parente, et la colonne doit avoir été profilée comme ayant le type de données date, date et heure, horodatage ou heure.

Les jeux de données de prédiction créés par un déploiement d'apprentissage automatique, y compris les jeux de données SHAP et d'application, incluront les caractéristiques de date auto-conçues.

Caractéristiques de date auto-conçues dans les prédictions en temps réel

Afin que l'API de prédictions en temps réel puisse traiter vos champs de dates et d'horodatages, la charge JSON que vous envoyez à l'API de prédictions en temps réel doit suivre les exigences ci-dessous :

  • Les valeurs de date et d'heure doivent être des chaînes de caractères formatées conformément aux normes ISO 8601

  • Les données dans chaque colonne doivent être dans le même fuseau horaire

Note InformationsLes données que vous utilisez pour former votre modèle ne sont pas tenues de suivre ces exigences.

Traitement des données de type texte libre

Pour pouvoir être utile dans un modèle, le texte libre (par exemple, des données de type chaîne textuelle saisies dans des formulaires) nécessite un traitement spécial par des algorithmes d'apprentissage automatique. Dans Qlik AutoML, le traitement du texte libre est une forme d'ingénierie automatique des caractéristiques. D'un point de vue technique, ce traitement utilise la méthode TF-IDF (Term Frequency - Inverse Document Frequency (Fréquence des termes - Fréquence inverse des documents)).

AutoML supporte le traitement distinct des caractéristiques contenant des données de type texte libre en anglais.

Si une colonne de vos données d'apprentissage contient un texte libre, le type de caractéristique Texte libre lui est attribué. Elle peut également être utilisée sous forme de caractéristique catégorique, même si cela est vivement déconseillé en cas de forte cardinalité (trop grand nombre de valeurs uniques).

Vous pouvez sélectionner un maximum de trois colonnes à utiliser sous forme de caractéristiques de type texte libre dans une expérimentation.

Note InformationsIl est recommandé de renouveler l'apprentissage des modèles formés avant le 23 janvier 2024, s'ils utilisent des champs composés de données de type texte libre.

Conditions requises pour le chiffrement de texte libre

Pour chiffrer correctement une colonne contenant un texte libre sous forme de texte libre, celle-ci doit remplir deux conditions. Ces conditions sont vérifiées à différentes phases de la création de l'expérimentation.

Les conditions préalables requises sont les suivantes :

  • La colonne doit avoir une longueur de caractères moyenne de 50 caractères ou plus.

  • La colonne doit avoir une longueur de mots moyenne de cinq mots ou plus.

Traitement d'une caractéristique sous forme de texte libre

Le processus de traitement d'une caractéristique sous forme de texte libre est le suivant :

  1. Lorsque vous sélectionnez vos données d'apprentissage, Qlik AutoML identifie les caractéristiques susceptibles d'être traitées sous forme de texte libre. Elles sont marquées de l'information Texte libre possible dans la vue de schéma et leur type de caractéristique est Texte libre.

  2. Une fois la v1 de l'expérimentation terminée, une analyse supplémentaire est effectuée. À ce stade, les caractéristiques initialement marquées comme Texte libre possible peuvent s'avérer inutilisables comme caractéristiques de type texte libre.

    Si les caractéristiques inutilisables sous forme de type Texte libre présentent une forte cardinalité, il est recommandé de les désélectionner de l'expérimentation. Ces caractéristiques, quand elles sont traitées comme étant catégoriques, n'apportent aucune valeur aux performances du modèle.

    Si les caractéristiques inutilisables sous forme de texte libre ne présentent pas de forte cardinalité, vous pouvez les inclure dans votre expérimentation en cliquant sur Traiter comme catégorique, ou en remplaçant leur Type de caractéristique Texte libre par Catégorique. Si vous conservez le type de caractéristique Texte libre, elles seront également traitées en interne comme des caractéristiques catégoriques et feront l'objet d'un impact encoding.

Pour des informations détaillées complètes sur le prétraitement, voir Préparation et transformation automatiques des données.

Pour plus d'informations sur chacune des informations analytiques apparaissant dans la vue Schéma, voir Affichage d'informations analytiques sur les données d'apprentissage.

Utilisation d'une caractéristique de type texte libre comme cible de l'expérimentation

Dans de rares cas, il est possible de sélectionner comme cible une caractéristique de type texte libre. Si la caractéristique remplit l'ensemble des conditions requises pour le chiffrement de texte libre et si elle contient entre deux et dix valeurs uniques, elle peut être utilisée comme cible. Dans ces scénarios, l'expérimentation est définie comme un problème de classification multiclasse ou de classification binaire standard.

Caractéristiques de type texte libre dans les prédictions

Lorsque vous déployez un modèle formé avec une caractéristique de type texte libre, le déploiement ML obtenu peut générer des prédictions à condition que les conditions suivantes soient remplies pour le jeu de données à appliquer :

  • Les noms de colonne de la caractéristique correspondent dans le jeu de données d'apprentissage et dans le jeu de données à appliquer.

  • La colonne du jeu de données à appliquer, qui correspond à la caractéristique de type texte libre des données d'apprentissage, contient des données de type chaîne.

Note AvertissementTant que les conditions ci-dessus sont remplies, la prédiction s'exécutera correctement. En d'autres termes, la prédiction s'exécutera correctement, même si la colonne correspondante du jeu de données à appliquer ne contient en fait pas de texte libre. Une prédiction générée dans cette situation n'est pas considérée comme fiable. Vérifiez toujours que la colonne équivalente de votre jeu de données à appliquer, qui correspond à une caractéristique de type texte libre dans vos données d'apprentissage, contient un texte libre.

Considérations

L'inclusion dans votre expérimentation de fonctions de texte libre augmente la complexité de l'expérimentation et les processus nécessaires pour l'exécuter. Il est possible que les graphiques Permutation importance ne soient pas disponibles pour les modèles obtenus si les données sous forme de texte libre sont suffisamment complexes.

Dépannage

L'utilisation de données sous forme de texte libre pour former un modèle peut être un processus très gourmand en ressources. Il se peut que vous rencontriez une erreur, lorsque vous incluez des colonnes de texte libre contenant de grands nombres de termes uniques comme caractéristiques.

Pour résoudre ces erreurs, voici quelques conseils :

  • Réduisez le sous-jeu de données de votre jeu de données d'apprentissage pour y inclure moins de lignes de texte libre.

  • Retirez les caractéristiques de type texte libre que vous n'avez pas besoin d'inclure dans l'apprentissage du modèle.

  • Traitez une ou plusieurs colonnes de texte libre comme des caractéristiques catégoriques au lieu de caractéristiques de type texte libre. Notez que cela n'est pas recommandé, si ces caractéristiques de type texte libre présentent une forte cardinalité.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !