Accéder au contenu principal Passer au contenu complémentaire

Statistiques de fréquence des modèles

Les indicateurs de ce groupe déterminent les modèles les plus fréquents et les moins fréquents.
Note InformationsA faire :

Lors de l'exécution d'une analyse avec le monteur SQL, les valeurs en pourcentage n'apparaissent pas dans les résultats d'analyse, si l'indicateur Row Count n'a pas été sélectionné.

L'indicateur Date Pattern Frequency supporte 30 types de modèles de dates. Si le modèle personnalisé n'est pas inclus, les résultats seront vides. Pour ajouter un modèle personnalisé, créez un indicateur personnalisé.

Indicateurs de fréquence des modèles (Pattern frequency)

Les indicateurs Pattern Frequency et Pattern Low Frequency sont les indicateurs de fréquence des modèles.
Il y a deux types d'indicateurs de fréquence des modèles :
  • L'indicateur Pattern Frequency, qui calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.
  • L'indicateur Pattern Low Frequency, qui calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Ces deux indicateurs présentent des modèles en convertissant les caractères alphabétiques en a et numériques en 9.

Indicateurs de fréquence des modèles et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
Pattern Frequency
  • Number
  • Text
  • Date
  • Number
  • Text
  • Date
Pattern Low Frequency
  • Number
  • Text
  • Date
  • Number
  • Text
  • Date

Indicateurs de fréquence des modèles - Asie de l'Est (East Asia pattern frequency)

Les indicateurs Fréquence des modèles d'Asie de l'Est et Basse fréquence des modèles d'Asie de l'Est sont les indicateurs de fréquence des modèles relatifs à l'Asie de l'Est.
Il y a deux types d'indicateurs de fréquence des modèles :
  • L'indicateur East Asia Pattern Frequency, qui calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.
  • L'indicateur East Asia Pattern Low Frequency, qui calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.

Ces deux indicateurs fonctionnent uniquement avec des caractères latins et sont disponibles uniquement avec le moteur Java. Ils sont utiles lorsque vous souhaiter identifier des modèles au sein de données asiatiques.

Les deux indicateurs ci-dessus présentent des modèles en convertissant des caractères asiatiques en lettre comme H,K,C et G en suivant les règles décrites dans le tableau suivant :

Type de caractères Utilisation
Chiffres latins 9 remplace tous les chiffres ASCII.
Lettres minuscules latines a remplace tous les caractères latins ASCII.
Latin uppercase letters A remplace tous les caractères latins en majuscule.
Full-width Latin numbers 9 remplace tous les chiffres ASCII.
Full-width Latin lowercase letters a remplace tous les caractères latins ASCII.
Full-width Latin uppercase letters A remplace tous les caractères latins en majuscule.
Hiragana H remplace tous les caractères Hiragana
Katakana moyenne chasse k remplace tous les caractères Katakana moyenne chasse
Full-width Katakana K remplace tous les caractères Katakana pleine chasse
Katakana K remplace tous les caractères Katakana
Kanji C remplace les caractères chinois
Hangul G remplace des caractères Hangeul.

Voici un exemple d'analyse de colonnes utilisant les indicateurs East Asia Pattern Frequency et East Asia Pattern Low Frequency sur une colonne address.

Configuration pour appliquer les indicateurs East Asia Pattern Frequency (Fréquence des modèles d'Asie de l'Est) et East Asia Pattern Low Frequency (Basse fréquence des modèles d'Asie de l'Est).

Les résultats d'analyse de l'indicateur East Asia Pattern Low Frequency ressemblent à ceci :

Résultats graphiques et tabulaires de l'indicateur East Asia Pattern Low Frequency Statistics (Basse fréquence des modèles d'Asie de l'Est).

Ces résultats donnent le nombre d'enregistrements les moins fréquents pour chaque modèle distinct. Certains modèles ont des caractères et des nombres et d'autres contiennent uniquement des caractères. Les modèles ont également différentes longueurs, cela montre que les adresses ne sont pas cohérentes et que vous devez les corriger et les nettoyer.

Indicateurs de fréquence des modèles East Asia et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
East Asia Pattern Frequency
  • Number
  • Text
  • Date
Aucun
East Asia Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun

Indicateur de fréquence des modèles de date

Cet indicateur évalue les modèles de date les plus fréquents en comptant le nombre d'enregistrements pour chaque modèle de date distinct.

Indicateur de fréquence des modèles de date et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
Fréquence du modèle de date
  • Text
  • Date
Aucun

Indicateurs relatifs aux mots

Les indicateurs de modèles relatifs aux mots comprennent des indicateurs sensibles et non sensibles à la casse.

Les indicateurs des modèles basés sur des mots calculent le nombre d'enregistrements pour chaque modèle distinct et sont disponibles uniquement avec le moteur Java.

Vous pouvez utiliser ces indicateurs avec le type de données String uniquement.

Indicateurs sensibles à la casse

Il y a deux types d'indicateurs sensibles à la casse :
  • L'indicateur de fréquence du modèle CS Word évalue les modèles de mots les plus fréquents.
  • L'indicateur de basse fréquence du modèle CS Word évalue les modèles de mots les moins fréquents.

Les modèles se focalisent sur les mots et sont sensibles à la casse :

Pattern (Modèle) Description
[Word] Mot commençant par un caractère en majuscule suivi de caractères en minuscules
[WORD] Mot composé de caractères en majuscules
[word] Mot composé de caractères en minuscules
[Char] Unique caractère en majuscule
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres

Lorsque vous utilisez les indicateurs CS Word Pattern Frequency et CS Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

String Pattern
A character is NOT a Word [Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS [word][Word][WORD][char][WORD]
Example123@domain.com [Word][number]@[word].[word]
anotherExample8@domain.com [word][Word][digit]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [Word][digit][IdeogramSeq]
Latin3フランス [Word][digit][kataSeq]
Latin4とうきょう [Word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [Word][digit][hangulSeq]

Indicateurs non sensibles à la casse

Il y a deux types d'indicateurs insensibles à la casse :
  • L'indicateur de fréquence du modèle CI Word évalue les modèles de mots les plus fréquents.
  • L'indicateur de basse fréquence du modèle CI Word évalue les modèles de mots les moins fréquents.

Les modèles se focalisent sur les mots et ne sont pas sensibles à la casse :

Modèle Description
[word] Mot composé de caractères en minuscules
[char] Unique caractère en minuscule
[Ideogram] Un des idéogrammes unifiés CJC
[IdeogramSeq] Séquence d'idéogrammes
[hiraSeq] Séquence de caractères japonais Hiragana
[kataSeq] Séquence de caractères japonais Katakana
[hangulSeq] Séquence de caractères coréens Hangul
[digit] Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9
[number] Séquence de chiffres
[alnum] Valeur alphanumérique composée de caractères et de chiffres arabes

Lorsque vous utilisez les indicateurs CI Word Pattern Frequency et CI Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :

String Pattern
A character is NOT a Word [char] [word] [word] [word] [char] [word]
someWordsINwORDS [word]
Example123@domain.com [alnum]@[word].[word]
anotherExample8@domain.com [alnum]@[word].[word]
袁 花木蘭88 [Ideogram] [IdeogramSeq][number]
Latin2中文 [word][digit][IdeogramSeq]
Latin3フランス [word][digit][kataSeq]
Latin4とうきょう [word][digit][hiraSeq]
Latin5나는 한국 사람입니다 [word][digit][hangulSeq]

Indicateurs de modèles et compatibilité avec les bases de données

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
CS Word Pattern Frequency
  • Number
  • Text
  • Date
Aucun
CS Word Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun
CI Word Pattern Frequency
  • Number
  • Text
  • Date
Aucun
CI Word Pattern Low Frequency
  • Number
  • Text
  • Date
Aucun

Liste des moteurs utilisés et des types de bases de données supportés lors de l'utilisation des indicateurs de statistiques de fréquence des modèles

Lors de la création d'une analyse de colonnes dans la perspective Profiling du Studio Talend, vous pouvez profiler une base de données en utilisant les indicateurs de statistiques de fréquence des modèles. Pour exécuter l'analyse, utilisez le moteur Java ou SQL en fonction du type de la base de données à profiler.
La compatibilité des moteurs dépend des types de bases de données lors de l'utilisation des indicateurs Pattern Frequency Statistics
Type de base de données Moteur Java Moteur SQL
Exasol Oui Oui
Hive Oui Yes (Oui)
MySQL Oui Oui
Netezza Oui Oui
Oracle Oui Oui
PostgreSQL Oui Oui
Sybase Oui No (Non)
Teradata Oui No (Non)
Vertica Oui Oui

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.