Préparation et transformation automatiques des données
Le jeu de données que vous avez sélectionné pour votre expérimentation est automatiquement pré-traité pour être préparé à l'apprentissage du modèle. Les étapes de pré-traitement incluent la préparation et la transformation des données. Cela augmente la qualité des données, pour vous fournir un modèle produisant des résultats exacts.
Une variété de techniques de science des données (Data Science) sont utilisées pour pré-traiter les données. La plupart des étapes sont effectuées par défaut et fonctionnent bien dans de nombreux cas d'utilisation. Le fait de connaître ces étapes par défaut (ainsi que leurs concepts sous-jacents) peut vous aider à comprendre ce que vous devez faire avec les données pour votre cas d'utilisation spécifique avant de les utiliser pour former un modèle.
Configuration de l'expérimentation
Avant le début du prétraitement, AutoML effectue plusieurs étapes préparatoires et offre un aperçu de la manière dont vos données seront traitées. Les étapes suivantes sont appliquées :
-
Classez les colonnes du jeu de données sous forme de caractéristique de type catégorique, numérique, date ou texte libre.
-
Les données de types flottant/à valeur flottante, double et décimal sont toujours considérées comme numériques.
-
Les colonnes contenant des données de type chaîne de moins de 50 caractères en moyenne sont classées comme catégoriques.
-
Les colonnes contenant des données de type chaîne de 50 caractères ou plus en moyenne sont classées comme des caractéristiques de type texte libre. Cependant, à ce stade, il n'est pas garanti que ces colonnes puissent être utilisées comme des caractéristiques de type texte libre. Lors du prétraitement, des conditions supplémentaires sont vérifiées. Voir Étapes de pré-traitement.
-
Les types de données entiers sont toujours considérés comme numériques.
-
Les types de données de date et d'horodatage sont toujours considérés comme ayant le type de caractéristique date. Lors de la configuration de l'expérimentation, AutoML prévisualise les caractéristiques auto-conçues qui pourraient éventuellement être dérivées de la caractéristique parente de date.
-
-
Dans chaque colonne, vérifiez la parcimonie, les constantes et si la cardinalité élevée. Excluez la colonne dans les cas suivants :
-
La colonne est au moins à 50 % nulle. La suppression des enregistrements contenant une valeur nulle pour une caractéristique peut conduire à rejeter des exemples d'apprentissage qui, sinon, pourraient s'avérer utiles. Sinon, l'imputation de valeurs peut sauver l'exemple, mais l'enregistrement devient uniquement une approximation de la réalité. Par conséquent, il est souvent préférable d'exclure des caractéristiques contenant un nombre élevé (plus de 50 %) de valeurs nulles. Notez que 0 n'est jamais considéré comme une valeur nulle.
-
La colonne a la même valeur dans chaque ligne (constante). En d'autres termes, la colonne a une faible cardinalité. Les caractéristiques présentant une seule valeur n'ont pas de valeur prédictive.
-
La colonne est catégorique et comporte au moins 90 % de valeurs uniques (cardinalité élevée). Un trop grand nombre de valeurs uniques complique la généralisation par le modèle au-delà du jeu de données d'apprentissage.
-
Des ajustements peuvent être apportés à la façon dont les données sont traitées une fois que le prétraitement a commencé.
Étapes de pré-traitement
Une fois que vous avez sélectionné une colonne cible, les lignes dans lesquelles la valeur cible est nulle sont identifiées et séparées, laissant les lignes dans lesquelles la cible est connue qui constituent le jeu de données d'apprentissage. Seules les données du jeu de données d'apprentissage sont utilisées pour prendre les décisions des étapes suivantes. Les étapes, ainsi que les métadonnées, seront enregistrées et appliquées à toutes les nouvelles données pour que le modèle puisse effectuer des prédictions dessus.
Le prétraitement est effectué sur les caractéristiques incluses chaque fois que vous exécutez une nouvelle version d'expérimentation.
-
Calculez et enregistrez la moyenne des valeurs numériques et le mode des valeurs catégoriques.
-
Imputez les valeurs manquantes. Pour plus d'informations, consultez Imputation des valeurs nulles.
-
Encodez les variables catégoriques.
-
Générez de nouvelles caractéristiques à partir de colonnes existantes dans le jeu de données. Ces nouvelles caractéristiques auto-conçues peuvent améliorer les performances et la capacité prédictive des modèles que vous créez.
La longueur de mots moyenne des colonnes identifiées comme contenant potentiellement un texte libre est examinée. Si la longueur de mots moyenne de la colonne est supérieure à cinq mots, la colonne peut être chiffrée sous forme de caractéristique de type texte libre via l'ingénierie automatique des caractéristiques. Sinon, un avertissement apparaît. Si la caractéristique n'est pas utilisable sous forme de texte libre, elle doit être désélectionnée, si elle présente une forte cardinalité.
-
Calculez et enregistrez les statistiques synthétiques de chaque colonne pour les utiliser lors de la mise à échelle des caractéristiques.
-
Standardisez chaque colonne via la mise à échelle des caractéristiques.
-
Utilisez la rétention automatique des données d'apprentissage et la validation croisée à cinq plis. Pour plus d'informations, consultez Données de rétention et validation croisée.