Préparation et transformation automatiques des données

Le jeu de données que vous avez sélectionné pour votre expérimentation est automatiquement pré-traité pour être préparé à l'apprentissage du modèle. Les étapes de pré-traitement incluent la préparation et la transformation des données. Cela augmente la qualité des données, pour vous fournir un modèle produisant des résultats exacts.

Une variété de techniques de science des données (Data Science) sont utilisées pour pré-traiter les données. La plupart des étapes sont effectuées par défaut et fonctionnent bien dans de nombreux cas d'utilisation. Le fait de connaître ces étapes par défaut (ainsi que leurs concepts sous-jacents) peut vous aider à comprendre ce que vous devez faire avec les données pour votre cas d'utilisation spécifique avant de les utiliser pour former un modèle.

Configuration de l'expérimentation

Avant le début du prétraitement, Qlik Predict effectue plusieurs étapes préparatoires et offre un aperçu de la manière dont vos données seront traitées. Certaines étapes dépendent de votre type d'expérimentation et d'autres facteurs. Les étapes suivantes peuvent s'appliquer :

Classez les colonnes du jeu de données sous forme de caractéristique de type catégorique, numérique, date ou texte libre.
- Les données de types flottant/à valeur flottante, double et décimal sont toujours considérées comme numériques.
- Les colonnes contenant des données de type chaîne de moins de 50 caractères en moyenne sont classées comme catégoriques.
- Les colonnes contenant des données de type chaîne de 50 caractères ou plus en moyenne sont classées comme des caractéristiques de type texte libre. Cependant, à ce stade, il n'est pas garanti que ces colonnes puissent être utilisées comme des caractéristiques de type texte libre. Lors du prétraitement, des conditions supplémentaires sont vérifiées. Consultez Étapes de pré-traitement.
- Les types de données entiers sont toujours considérés comme numériques.
- Les types de données de date et d'horodatage sont toujours considérés comme ayant le type de caractéristique date. Lors de la configuration de l'expérimentation, Qlik Predict prévisualise les caractéristiques auto-conçues qui pourraient éventuellement être dérivées de la caractéristique parente de date.
Dans chaque colonne, vérifiez la parcimonie, les constantes et si la cardinalité élevée. Excluez la colonne dans les cas suivants :
- La colonne est au moins à 50 % nulle. La suppression des enregistrements contenant une valeur nulle pour une caractéristique peut conduire à rejeter des exemples d'apprentissage qui, sinon, pourraient s'avérer utiles. Sinon, l'imputation de valeurs peut sauver l'exemple, mais l'enregistrement devient uniquement une approximation de la réalité. Par conséquent, il est souvent préférable d'exclure des caractéristiques contenant un nombre élevé (plus de 50 %) de valeurs nulles. Notez que 0 n'est jamais considéré comme une valeur nulle.
- La colonne a la même valeur dans chaque ligne (constante). En d'autres termes, la colonne a une faible cardinalité. Les caractéristiques présentant une seule valeur n'ont pas de valeur prédictive.
- La colonne est catégorique et comporte au moins 90 % de valeurs uniques (cardinalité élevée). Un trop grand nombre de valeurs uniques complique la généralisation par le modèle au-delà du jeu de données d'apprentissage.

Des ajustements peuvent être apportés à la façon dont les données sont traitées une fois que le prétraitement a commencé.

Étapes de pré-traitement

Une fois que vous avez sélectionné une colonne cible, les étapes suivantes dépendent du type d'expérimentation. Pour les expérimentations de classification et de régression, les lignes dans lesquelles la valeur cible est nulle sont identifiées et séparées, laissant les lignes dans lesquelles la cible est connue qui constituent le jeu de données d'apprentissage. Pour les expérimentations de série temporelle, les valeurs cibles manquantes sont interpolées.

Seules les données du jeu de données d'apprentissage sont utilisées pour prendre les décisions des étapes suivantes. Les étapes, ainsi que les métadonnées, seront enregistrées et appliquées à toutes les nouvelles données pour que le modèle puisse effectuer des prédictions dessus.

Le prétraitement est effectué sur les caractéristiques incluses chaque fois que vous exécutez une nouvelle version d'expérimentation. Certaines étapes dépendent de votre type d'expérimentation et d'autres facteurs.

Calculez et enregistrez la moyenne des valeurs numériques et le mode des valeurs catégoriques.
Imputez les valeurs manquantes. Pour plus d'informations, consultez Imputation des valeurs nulles.
Encodez les variables catégoriques.
Pour les modèles de série temporelle, un certain nombre d'étapes sont effectuées pour valider les propriétés d'expérimentation configurées par l'utilisateur et pour fournir des informations supplémentaires à l'utilisateur une fois l'apprentissage terminé :
- La fenêtre de projection maximale est déterminée.
- L'étape temporelle de l'index de date est confirmée.
- Les regroupements cibles sélectionnés par l'utilisateur sont validés ou, s'ils ne sont pas spécifiés, ils sont identifiés s'ils sont présents parmi les caractéristiques catégoriques incluses.
Générez de nouvelles caractéristiques à partir de colonnes existantes dans le jeu de données. Ces nouvelles caractéristiques auto-conçues peuvent améliorer les performances et la capacité prédictive des modèles que vous créez.

La longueur de mots moyenne des colonnes identifiées comme contenant potentiellement un texte libre est examinée. Si la longueur de mots moyenne de la colonne est supérieure à cinq mots, la colonne peut être chiffrée sous forme de caractéristique de type texte libre via l'ingénierie automatique des caractéristiques. Sinon, un avertissement apparaît. Si la caractéristique n'est pas utilisable sous forme de texte libre, elle doit être désélectionnée, si elle présente une forte cardinalité.
Calculez et enregistrez les statistiques synthétiques de chaque colonne pour les utiliser lors de la mise à l'échelle des caractéristiques.
Standardisez chaque colonne via la mise à l'échelle des caractéristiques.
Effectuez une analyse sur les caractéristiques qui ont été sélectionnées pour la détection de biais, renvoyant des métriques de biais de données et des informations analytiques correspondantes. Pour plus d'informations, consultez Détection des biais dans les modèles d'apprentissage automatique.
Utilisez la rétention automatique des données d'apprentissage et la validation croisée à cinq plis. Pour plus d'informations, consultez Données de rétention et validation croisée.
Calculez diverses statistiques sur le jeu de données avec plus de certitude. Par exemple, de nouvelles informations peuvent être disponibles concernant la taille du jeu de données, le nombre de lignes et de cellules et les proportions de valeurs nulles. Pour plus d'informations, consultez Limitations relatives aux jeux de données d'apprentissage et au profilage.

En savoir plus

Ingénierie automatique des caractéristiques

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici