Ingénierie automatique des caractéristiques
Avec l'ingénierie automatique des caractéristiques, Qlik AutoML peut utiliser des caractéristiques existantes dans vos données d'apprentissage pour créer de nouvelles caractéristiques. Ces nouvelles caractéristiques auto-conçues vous permettent de découvrir de nouvelles tendances dans vos données et peuvent considérablement améliorer les performances de vos modèles d'apprentissage automatique.
L'ingénierie des caractéristiques consiste à créer de nouvelles colonnes de caractéristiques à partir des colonnes existantes. AutoML peut effectuer automatiquement l'ingénierie des caractéristiques pour une meilleure manipulation de certains types de données. Pour obtenir des informations générales sur l'ingénierie des caractéristiques, veuillez consulter Création de nouvelles colonnes de caractéristiques.
Les caractéristiques de type date auto-conçues, ainsi que les caractéristiques parentes dont elles sont dérivées, sont marquées d'une icône .
Après avoir sélectionné un jeu de données à utiliser pour votre expérimentation, ce dernier est analysé et les colonnes qu'il contient sont identifiées comme contenant certains types de données. Ces types de données permettent à AutoML d'attribuer un type de caractéristique à chaque colonne dans le jeu de données. Chaque colonne se voit attribuer l'un des types de caractéristique suivants :
-
Catégorique
-
Numérique
-
Date
-
Texte libre
Lorsque cela est possible, AutoML affiche une liste de caractéristiques auto-conçues qui peuvent être créées à partir des caractéristiques parentes éligibles. Cette liste de caractéristiques auto-conçues est davantage affinée et réduite au fur et à mesure que le prétraitement commence. Inclure les caractéristiques auto-conçues dans votre expérimentation est recommandé mais facultatif. Vous pouvez supprimer des caractéristiques auto-conçues individuelles avant de commencer l'entraînement, ainsi que lors de la configuration de chaque nouvelle version d'expérimentation.
Pour obtenir plus d'informations sur les processus effectués avant le début de l'entraînement de l'expérimentation, consultez Préparation et transformation automatiques des données.
Ingénierie des caractéristiques de date
AutoML génère des caractéristiques auto-conçues à partir des colonnes éligibles ayant le type de caractéristique « date », qui ont été identifiées comme contenant des informations relatives à la date et à l'heure. Les caractéristiques de type date auto-conçues, ainsi que les caractéristiques parentes dont elles sont dérivées, sont marquées d'une icône .
Lorsque Qlik Cloud Analytics analyse le jeu de données d'entraînement que vous avez sélectionné pour l'utiliser avec AutoML, il relie certains types de données au type de caractéristique « date ». Cela inclut les types de données suivants :
-
date
-
Datetime
-
Heure
-
Horodatage
Les caractéristiques qui se voient attribuer l'un de ces types de données lors du profilage reçoivent le type de caractéristique « date ». Pour obtenir des informations sur les statistiques de profil disponibles pour vos champs de données, veuillez consulter Profile List view (Mode liste du profil).
Lorsque cela est possible, AutoML affiche une liste de caractéristiques de date auto-conçues qui peuvent être créées à partir de caractéristiques parentes éligibles ayant le type de caractéristique "date". Les caractéristiques de date auto-conçues sont incluses dans l'expérimentation par défaut. Si vous choisissez de les inclure, les nouvelles caractéristiques sont générées après la version 1 de l'expérimentation.
Les caractéristiques de date auto-conçues ont le type de caractéristique numérique. Elles sont incluses dans l'expérimentation par défaut, mais elles sont facultatives. Vous pouvez en retirer certaines, voire toutes, avant de démarrer l'entraînement de l'expérience, ou lors de la configuration de la prochaine version de l'expérimentation. Lorsque les caractéristiques de date auto-conçues sont incluses, la caractéristique de date parente initiale est retirée de l'expérimentation.
Vous pouvez plutôt inclure la caractéristique de date parente dans l'expérimentation. Lorsque vous choisissez de faire cela, le type de caractéristique de la caractéristique parente est modifié de date à catégorique, et les caractéristiques de date auto-conçues ne sont plus exploitables. Il est recommandé d'utiliser les caractéristiques auto-conçues disponibles dans votre expérimentation, car elles améliorent les performances de vos modèles d'apprentissage automatique.
Les caractéristiques de date auto-conçues ne sont pas prises en compte dans la taille du jeu de données d'AutoML (nombre maximal de cellules dans les jeux de données d'entraînement et d'application) spécifiée dans votre abonnement Qlik Cloud. Seules les cellules de la colonne de date d'origine sont comptées.
Utilisation des caractéristiques de date comme cible de l'expérimentation
Dans le rare cas où vous souhaitez utiliser une caractéristique avec des informations de date et d'heure comme cible de votre expérimentation, le type de caractéristique de la colonne sera modifié de date à catégorique, et les caractéristiques auto-conçues seront supprimées. Si vous choisissez une autre cible, puis souhaitez ultérieurement ajouter la caractéristique de date et d'heure en tant que caractéristique régulière, vous devrez éventuellement la modifier manuellement pour qu'elle retrouve le type de caractéristique de date. Si vous restaurez la caractéristique au type de caractéristique de date, les caractéristiques de date auto-conçues seront à nouveau générées.
Pour obtenir plus d'informations sur la manière de modifier les types de caractéristiques, consultez Modification des types de caractéristiques.
Caractéristiques de date auto-conçues disponibles
Lors de la génération des caractéristiques de date auto-conçues à partir d'une colonne de votre jeu de données, AutoML extrait et calcule des composants spécifiques de chaque valeur de date et d'heure, isolant chaque composant dans sa propre colonne. Le tableau ci-dessous répertorie les caractéristiques auto-conçues qui peuvent être générées par AutoML.
Caractéristique auto-conçue | Type de données | Type de caractéristique | Description |
YEAR | Entier | Numérique | Champ pour l'année extrait directement de la date source ou de l'horodatage. |
MONTH | Entier | Numérique | Champ pour le mois extrait directement de la date source ou de l'horodatage. |
DAY | Entier | Numérique | Champ pour le jour extrait directement de la date source ou de l'horodatage. |
HOUR | Entier | Numérique | Champ pour l'heure extrait directement de l'horodatage source. |
MINUTE | Entier | Numérique | Champ pour les minutes extrait directement de l'horodatage source. |
SECONDE | Entier | Numérique | Champ pour les secondes extrait directement de l'horodatage source. |
DAYOFWEEK | Entier | Numérique | Jour de la semaine, calculé à partir du jour, du mois et de l'année sources. |
WEEK | Entier | Numérique | Semaine de l'année, calculé à partir du jour, du mois et de l'année sources. |
Pour chaque nouvelle caractéristique créée, le nom de la colonne d'origine comporte en suffixe la caractéristique auto-conçue correspondante.
Caractéristiques de date auto-conçues dans les prédictions
Les caractéristiques de date auto-conçues sont générées lors de l'utilisation du jeu de données d'entraînement pour créer un modèle, qui est déployé et utilisé en tant que déploiement d'apprentissage automatique (ML - Machine Learning) pour effectuer des prédictions sur de nouvelles données (le jeu de données à appliquer).
Lorsqu'un modèle entraîné avec des caractéristiques de date auto-conçues est déployé pour effectuer des prédictions, le jeu de données à appliquer sur lequel vous générez des prédictions n'a pas besoin d'inclure les caractéristiques de date auto-conçues. AutoML génère les caractéristiques auto-conçues pour le jeu de données à appliquer avant de procéder aux prédictions. Cependant, le jeu de données à appliquer doit inclure la caractéristique de date parente, et la colonne doit avoir été profilée comme ayant le type de données date, date et heure, horodatage ou heure.
Les jeux de données de prédiction créés par un déploiement d'apprentissage automatique, y compris les jeux de données SHAP et d'application, incluront les caractéristiques de date auto-conçues.
Caractéristiques de date auto-conçues dans les prédictions en temps réel
Afin que l'API de prédictions en temps réel puisse traiter vos champs de dates et d'horodatages, la charge JSON que vous envoyez à l'API de prédictions en temps réel doit suivre les exigences ci-dessous :
-
Les valeurs de date et d'heure doivent être des chaînes de caractères formatées conformément aux normes ISO 8601
-
Les données dans chaque colonne doivent être dans le même fuseau horaire
Traitement des données de type texte libre
Pour pouvoir être utile dans un modèle, le texte libre (par exemple, des données de type chaîne textuelle saisies dans des formulaires) nécessite un traitement spécial par des algorithmes d'apprentissage automatique. Dans Qlik AutoML, le traitement du texte libre est une forme d'ingénierie automatique des caractéristiques. D'un point de vue technique, ce traitement utilise la méthode TF-IDF (Term Frequency - Inverse Document Frequency (Fréquence des termes - Fréquence inverse des documents)).
AutoML supporte le traitement distinct des caractéristiques contenant des données de type texte libre en anglais.
Si une colonne de vos données d'apprentissage contient un texte libre, le type de caractéristique Texte libre lui est attribué. Elle peut également être utilisée sous forme de caractéristique catégorique, même si cela est vivement déconseillé en cas de forte cardinalité (trop grand nombre de valeurs uniques).
Vous pouvez sélectionner un maximum de trois colonnes à utiliser sous forme de caractéristiques de type texte libre dans une expérimentation.
Conditions requises pour le chiffrement de texte libre
Pour chiffrer correctement une colonne contenant un texte libre sous forme de texte libre, celle-ci doit remplir deux conditions. Ces conditions sont vérifiées à différentes phases de la création de l'expérimentation.
Les conditions préalables requises sont les suivantes :
-
La colonne doit avoir une longueur de caractères moyenne de 50 caractères ou plus.
-
La colonne doit avoir une longueur de mots moyenne de cinq mots ou plus.
Traitement d'une caractéristique sous forme de texte libre
Le processus de traitement d'une caractéristique sous forme de texte libre est le suivant :
-
Lorsque vous sélectionnez vos données d'apprentissage, Qlik AutoML identifie les caractéristiques susceptibles d'être traitées sous forme de texte libre. Elles sont marquées de l'information Texte libre possible dans la vue de schéma et leur type de caractéristique est Texte libre.
-
Une fois la v1 de l'expérimentation terminée, une analyse supplémentaire est effectuée. À ce stade, les caractéristiques initialement marquées comme Texte libre possible peuvent s'avérer inutilisables comme caractéristiques de type texte libre.
Si les caractéristiques inutilisables sous forme de type Texte libre présentent une forte cardinalité, il est recommandé de les désélectionner de l'expérimentation. Ces caractéristiques, quand elles sont traitées comme étant catégoriques, n'apportent aucune valeur aux performances du modèle.
Si les caractéristiques inutilisables sous forme de texte libre ne présentent pas de forte cardinalité, vous pouvez les inclure dans votre expérimentation en cliquant sur Traiter comme catégorique, ou en remplaçant leur Type de caractéristique Texte libre par Catégorique. Si vous conservez le type de caractéristique Texte libre, elles seront également traitées en interne comme des caractéristiques catégoriques et feront l'objet d'un impact encoding.
Pour des informations détaillées complètes sur le prétraitement, voir Préparation et transformation automatiques des données.
Pour plus d'informations sur chacune des informations analytiques apparaissant dans la vue Schéma, voir Affichage d'informations analytiques sur les données d'apprentissage.
Utilisation d'une caractéristique de type texte libre comme cible de l'expérimentation
Dans de rares cas, il est possible de sélectionner comme cible une caractéristique de type texte libre. Si la caractéristique remplit l'ensemble des conditions requises pour le chiffrement de texte libre et si elle contient entre deux et dix valeurs uniques, elle peut être utilisée comme cible. Dans ces scénarios, l'expérimentation est définie comme un problème de classification multiclasse ou de classification binaire standard.
Caractéristiques de type texte libre dans les prédictions
Lorsque vous déployez un modèle formé avec une caractéristique de type texte libre, le déploiement ML obtenu peut générer des prédictions à condition que les conditions suivantes soient remplies pour le jeu de données à appliquer :
-
Les noms de colonne de la caractéristique correspondent dans le jeu de données d'apprentissage et dans le jeu de données à appliquer.
-
La colonne du jeu de données à appliquer, qui correspond à la caractéristique de type texte libre des données d'apprentissage, contient des données de type chaîne.
Considérations
L'inclusion dans votre expérimentation de fonctions de texte libre augmente la complexité de l'expérimentation et les processus nécessaires pour l'exécuter. Il est possible que les graphiques Permutation importance ne soient pas disponibles pour les modèles obtenus si les données sous forme de texte libre sont suffisamment complexes.
Dépannage
L'utilisation de données sous forme de texte libre pour former un modèle peut être un processus très gourmand en ressources. Il se peut que vous rencontriez une erreur, lorsque vous incluez des colonnes de texte libre contenant de grands nombres de termes uniques comme caractéristiques.
Pour résoudre ces erreurs, voici quelques conseils :
-
Réduisez le sous-jeu de données de votre jeu de données d'apprentissage pour y inclure moins de lignes de texte libre.
-
Retirez les caractéristiques de type texte libre que vous n'avez pas besoin d'inclure dans l'apprentissage du modèle.
-
Traitez une ou plusieurs colonnes de texte libre comme des caractéristiques catégoriques au lieu de caractéristiques de type texte libre. Notez que cela n'est pas recommandé, si ces caractéristiques de type texte libre présentent une forte cardinalité.