Accéder au contenu principal Passer au contenu complémentaire

Types de data mining

Lorsque vous créez une analyse de colonne dans le Studio Talend, vous pouvez voir une liste Datamining Type à côté de chaque colonne que vous souhaitez analyser.

Le type sélectionné dans la liste représente le type de data mining pour la colonne associée.

Liste déroulante pour le type de data mining d'une colonne analysée dans la section Analyzed Columns (Colonnes analysées).

Ces types de data mining types permettent au Studio Talend de choisir les métriques appropriées pour la colonne associée puisque tous les indicateurs (ou métriques) ne peuvent être calculés pour tous les types de données.

Les types de data mining disponibles sont : Nominal, Interval, Unstructured Text et Other. Les sections ci-dessous décrivent les types de data mining disponibles.

Nominal

Les données nominales sont des données catégoriques dont les valeurs/observations peuvent avoir un code assigné, sous forme d'un nombre, où les nombres sont simplement des libellés. Vous pouvez compter les données nominales, mais vous ne pouvez pas les ordonner ou les mesurer.

Dans le Studio Talend, le type d'exploration des données textuelles est défini comme nominal. Par exemple, une colonne nommée WEATHER (temps) avec les valeurs : sun (soleil), cloud (nuages) et rain (pluie) est nominale.

Une colonne nommée POSTAL_CODE (code postal) ayant les valeurs 52200 et 75014 est nominale également, malgré ses valeurs numériques. De telles données sont de type nominal car elles identifient un code postal en France. Calculer des quantités mathématiques sur ces données, telles que la moyenne, est un non-sens. Dans un tel cas, vous devrez définir le type de data mining de cette colonne comme nominal, car il est actuellement impossible dans le Studio Talend de deviner automatiquement le type correct dans des cas semblables.

C'est également vrai pour les données des clés primaires ou étrangères. Les clés sont souvent représentées par des données numériques, mais leur type de data mining est Nominal.

Interval

Ce type de data mining est utilisé pour les données numériques et temporelles. Les moyennes peuvent être calculées pour ce type de données. Dans les bases de données, des quantités numériques sont parfois stockées dans des champs textuels.

Dans le Studio Talend, il est possible de déclarer le type de data mining d'une colonne contextuelle (c'est-à-dire une colonne de type VARCHAR) comme Intervalle. Dans ce cas, les données doivent être traitées comme numériques et les résumés statistiques doivent être disponibles.

Texte non structuré

Ce type de data mining est dédié à la gestion de données textuelles non structurées.

Par exemple, le type de data mining type d'une colonne appelée COMMENT contenant des commentaires ne peut être Nominal, puisque le texte n'est pas structuré. Cependant, il peut être intéressant de voir les valeurs en doublon d'une telle colonne, d'où la nécessité d'un nouveau type de data mining.

Autre

Il désigne les données que le Studio Talend ne sait pas encore comment gérer.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.