Accéder au contenu principal Passer au contenu complémentaire

Statistiques de fréquence Soundex

Les indicateurs de ce groupe utilisent l'algorithme Soundex construit dans le SGBD.

Ils indexent les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (uniquement la prononciation anglaise) sont encodés avec la même représentation pour qu'ils puissent correspondre malgré de légères différences orthographiques.

  • Fréquence Soundex : calcule le nombre d'enregistrements distincts les plus fréquents relativement au nombre total d'enregistrements ayant la même prononciation.
  • Basse fréquence Soundex : calcule le nombre d'enregistrements distincts les moins fréquents relativement au nombre total d'enregistrements ayant la même prononciation.

Pour pouvoir utiliser les indicateurs de fréquence Soundex dans PostgreSQL, Amazon pour PostgreSQL et Amazon Redshift, installez une extension dans la base de données PostgreSQL à l'aide de la requête CREATE EXTENSION fuzzystrmatch;.

Pour plus d'informations, consultez la documentation PostgreSQL (en anglais).

Pour pouvoir utiliser des indicateurs de fréquence Soundex dans Amazon Redshift, vous pouvez également créer une fonction personnalisée.

Pour plus d'informations, consultez Création de fonctions définies par l'utilisateur (uniquement en anglais).

Vous pouvez utiliser les indicateurs de fréquence Soundex dans Snowflake uniquement avec le moteur Java.

Les caractères chinois sont supportés uniquement par le moteur SQL.

Des limitations dans l'implémentation Soundex de Teradata peuvent vous empêcher d'explorer les résultats du profiling Teradata avec cet indicateur.

Le tableau suivant présente les indicateurs que vous pouvez sélectionner dans n'importe quelle base de données :

Indicateur Types de données supportés par le moteur d'analyse Java Types de données supportés par le moteur d'analyse SQL
Table de fréquence Soundex Text Text
Table de basse fréquence Soundex Text Text

Erreur de Teradata : "Invalid Input: only Latin letters allowed"

Un message peut survenir lorsque vous utilisez le Studio Talend pour profiler la base de données Teradata à l'aide de l'indicateur de tables de fréquence Soundex, car votre entrée est invalide.

Dans la perspective Profiling, essayez de profiler une colonne dans Teradata, first_name par exemple, en utilisant l'indicateur de tables de fréquence Soundex. Exécutez l'analyse de colonnes avec le moteur SQL. L'analyse s'exécute avec succès.

Explorez les données dans la page de résultat : dans la table de fréquence Soundex de la vue Analysis Results, cliquez-droit sur une ligne et sélectionnez View Rows. Une erreur survient dans l'éditeur SQL Editor par rapport à la requête SQL générée.

[Error 5583] Invalid Input: only Latin letters allowed.

L'implémentation Soundex de Teradata est la cause de cette limitation. La base de données Teradata exige qu'une chaîne de caractères ou une expression ayant un surnom soit évaluée en caractères latins simples.

Un caractère latin simple est un caractère ne possédant aucun signe diacritique tel que le tilde (~) ou l'accent aigu (´). Il existe 26 caractères latins simples en majuscules et 26 autres en minuscules. Même un simple appel à SOUNDEX ('Sébastien') ne peut être exécuté dans Teradata. Il est donc impossible d'explorer toutes les lignes qui ressemblent à 'Sébastien'.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.