Statistiques de fréquence des modèles
Lors de l'exécution d'une analyse avec le monteur SQL, les valeurs en pourcentage n'apparaissent pas dans les résultats d'analyse, si l'indicateur Row Count n'a pas été sélectionné.
L'indicateur Date Pattern Frequency supporte 30 types de modèles de dates. Si le modèle personnalisé n'est pas inclus, les résultats seront vides. Pour ajouter un modèle personnalisé, créez un indicateur personnalisé.
Indicateurs de fréquence des modèles (Pattern frequency)
- L'indicateur Pattern Frequency, qui calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.
- L'indicateur Pattern Low Frequency, qui calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.
Ces deux indicateurs présentent des modèles en convertissant les caractères alphabétiques en a et numériques en 9.
Indicateurs de fréquence des modèles et compatibilité avec les bases de données
Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :
Indicateur | Types de données supportés par le moteur d'analyse Java | Types de données supportés par le moteur d'analyse SQL |
---|---|---|
Pattern Frequency |
|
|
Pattern Low Frequency |
|
|
Indicateurs de fréquence des modèles - Asie de l'Est (East Asia pattern frequency)
- L'indicateur East Asia Pattern Frequency, qui calcule le nombre d'enregistrements les plus fréquents pour chaque modèle distinct.
- L'indicateur East Asia Pattern Low Frequency, qui calcule le nombre d'enregistrements les moins fréquents pour chaque modèle distinct.
Ces deux indicateurs fonctionnent uniquement avec des caractères latins et sont disponibles uniquement avec le moteur Java. Ils sont utiles lorsque vous souhaiter identifier des modèles au sein de données asiatiques.
Les deux indicateurs ci-dessus présentent des modèles en convertissant des caractères asiatiques en lettre comme H,K,C et G en suivant les règles décrites dans le tableau suivant :
Type de caractères | Utilisation |
---|---|
Chiffres latins | 9 remplace tous les chiffres ASCII. |
Lettres minuscules latines | a remplace tous les caractères latins ASCII. |
Latin uppercase letters | A remplace tous les caractères latins en majuscule. |
Full-width Latin numbers | 9 remplace tous les chiffres ASCII. |
Full-width Latin lowercase letters | a remplace tous les caractères latins ASCII. |
Full-width Latin uppercase letters | A remplace tous les caractères latins en majuscule. |
Hiragana | H remplace tous les caractères Hiragana |
Katakana moyenne chasse | k remplace tous les caractères Katakana moyenne chasse |
Full-width Katakana | K remplace tous les caractères Katakana pleine chasse |
Katakana | K remplace tous les caractères Katakana |
Kanji | C remplace les caractères chinois |
Hangul | G remplace des caractères Hangeul. |
Voici un exemple d'analyse de colonnes utilisant les indicateurs East Asia Pattern Frequency et East Asia Pattern Low Frequency sur une colonne address.
Les résultats d'analyse de l'indicateur East Asia Pattern Low Frequency ressemblent à ceci :
Ces résultats donnent le nombre d'enregistrements les moins fréquents pour chaque modèle distinct. Certains modèles ont des caractères et des nombres et d'autres contiennent uniquement des caractères. Les modèles ont également différentes longueurs, cela montre que les adresses ne sont pas cohérentes et que vous devez les corriger et les nettoyer.
Indicateurs de fréquence des modèles East Asia et compatibilité avec les bases de données
Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :
Indicateur | Types de données supportés par le moteur d'analyse Java | Types de données supportés par le moteur d'analyse SQL |
---|---|---|
East Asia Pattern Frequency |
|
Aucun |
East Asia Pattern Low Frequency |
|
Aucun |
Indicateur de fréquence des modèles de date
Cet indicateur évalue les modèles de date les plus fréquents en comptant le nombre d'enregistrements pour chaque modèle de date distinct.
Indicateur de fréquence des modèles de date et compatibilité avec les bases de données
Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :
Indicateur | Types de données supportés par le moteur d'analyse Java | Types de données supportés par le moteur d'analyse SQL |
---|---|---|
Fréquence du modèle de date |
|
Aucun |
Indicateurs relatifs aux mots
Les indicateurs de modèles relatifs aux mots comprennent des indicateurs sensibles et non sensibles à la casse.
Les indicateurs des modèles basés sur des mots calculent le nombre d'enregistrements pour chaque modèle distinct et sont disponibles uniquement avec le moteur Java.
Vous pouvez utiliser ces indicateurs avec le type de données String uniquement.
Indicateurs sensibles à la casse
- L'indicateur de fréquence du modèle CS Word évalue les modèles de mots les plus fréquents.
- L'indicateur de basse fréquence du modèle CS Word évalue les modèles de mots les moins fréquents.
Les modèles se focalisent sur les mots et sont sensibles à la casse :
Pattern (Modèle) | Description |
---|---|
[Word] | Mot commençant par un caractère en majuscule suivi de caractères en minuscules |
[WORD] | Mot composé de caractères en majuscules |
[word] | Mot composé de caractères en minuscules |
[Char] | Unique caractère en majuscule |
[char] | Unique caractère en minuscule |
[Ideogram] | Un des idéogrammes unifiés CJC |
[IdeogramSeq] | Séquence d'idéogrammes |
[hiraSeq] | Séquence de caractères japonais Hiragana |
[kataSeq] | Séquence de caractères japonais Katakana |
[hangulSeq] | Séquence de caractères coréens Hangul |
[digit] | Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9 |
[number] | Séquence de chiffres |
Lorsque vous utilisez les indicateurs CS Word Pattern Frequency et CS Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :
String | Pattern |
---|---|
A character is NOT a Word | [Char] [word] [word] [WORD] [char] [Word] |
someWordsINwORDS | [word][Word][WORD][char][WORD] |
Example123@domain.com | [Word][number]@[word].[word] |
anotherExample8@domain.com | [word][Word][digit]@[word].[word] |
袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
Latin2中文 | [Word][digit][IdeogramSeq] |
Latin3フランス | [Word][digit][kataSeq] |
Latin4とうきょう | [Word][digit][hiraSeq] |
Latin5나는 한국 사람입니다 | [Word][digit][hangulSeq] |
Indicateurs non sensibles à la casse
- L'indicateur de fréquence du modèle CI Word évalue les modèles de mots les plus fréquents.
- L'indicateur de basse fréquence du modèle CI Word évalue les modèles de mots les moins fréquents.
Les modèles se focalisent sur les mots et ne sont pas sensibles à la casse :
Modèle | Description |
---|---|
[word] | Mot composé de caractères en minuscules |
[char] | Unique caractère en minuscule |
[Ideogram] | Un des idéogrammes unifiés CJC |
[IdeogramSeq] | Séquence d'idéogrammes |
[hiraSeq] | Séquence de caractères japonais Hiragana |
[kataSeq] | Séquence de caractères japonais Katakana |
[hangulSeq] | Séquence de caractères coréens Hangul |
[digit] | Un des chiffres arabes : 0,1,2,3,4,5,6,7,8,9 |
[number] | Séquence de chiffres |
[alnum] | Valeur alphanumérique composée de caractères et de chiffres arabes |
Lorsque vous utilisez les indicateurs CI Word Pattern Frequency et CI Word Pattern Low Frequency, les chaînes de caractères suivantes sont remplacées par les modèles suivants :
String | Pattern |
---|---|
A character is NOT a Word | [char] [word] [word] [word] [char] [word] |
someWordsINwORDS | [word] |
Example123@domain.com | [alnum]@[word].[word] |
anotherExample8@domain.com | [alnum]@[word].[word] |
袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
Latin2中文 | [word][digit][IdeogramSeq] |
Latin3フランス | [word][digit][kataSeq] |
Latin4とうきょう | [word][digit][hiraSeq] |
Latin5나는 한국 사람입니다 | [word][digit][hangulSeq] |
Indicateurs de modèles et compatibilité avec les bases de données
Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :
Indicateur | Types de données supportés par le moteur d'analyse Java | Types de données supportés par le moteur d'analyse SQL |
---|---|---|
CS Word Pattern Frequency |
|
Aucun |
CS Word Pattern Low Frequency |
|
Aucun |
CI Word Pattern Frequency |
|
Aucun |
CI Word Pattern Low Frequency |
|
Aucun |
Liste des moteurs utilisés et des types de bases de données supportés lors de l'utilisation des indicateurs de statistiques de fréquence des modèles
Type de base de données | Moteur Java | Moteur SQL |
---|---|---|
Exasol | Oui | Oui |
Hive | Oui | Yes (Oui) |
MySQL | Oui | Oui |
Netezza | Oui | Oui |
Oracle | Oui | Oui |
PostgreSQL | Oui | Oui |
Sybase | Oui | No (Non) |
Teradata | Oui | No (Non) |
Vertica | Oui | Oui |