Soundex頻度統計
このグループのインジケーターはDBMSに搭載されたSoundexアルゴリズムを使用します。
これらのインジケーターはレコードに音でインデックスを作成します。これにより、同じ英語の発音のレコードは同一の表記にエンコードされるため、スペルが多少異なっていてもマッチングさせることができます。
- Soundex頻度: 同じ発音を持つレコードの合計と比べて頻度の高い個別のレコードの数を計算します。
- Soundex低頻度: 同じ発音を持つレコードの合計と比べて頻度の低い個別のレコードの数を計算します。
Soundex頻度統計インジケーターをPostgreSQL、Amazon for PostgreSQL、Amazon Redshiftで使用するには、CREATE EXTENSION fuzzystrmatch;クエリーを使用して拡張子をPostgreSQLデータベースにインストールします。
詳細は、PostgreSQLのドキュメンテーションをご覧ください。
Soundex頻度統計インジケーターをAmazon Redshiftで使用するには、カスタムユーザー定義ファンクションを作成する方法もあります。
詳細は、Creating user-defined functionsをご覧ください。
Soundex頻度統計インジケーターをSnowflakeで使用するには、Javaエンジンが必要です。
漢字がサポートされているのはSQLエンジンのみです。
Teradata Soundexの実装にある制限により、このインジケーターを使用してTeradataのプロファイリング結果をドリルダウンできない場合があります。
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
---|---|---|
Soundex頻度テーブル | Text | Text |
Soundex低頻度テーブル | Text | テキスト |
Teradataエラー: "Invalid Input: only Latin letters allowed" (無効な入力: 使用できるのはラテン文字のみ)
Profilingパースペクティブで、Soundex頻度テーブルインジケーターを使ってTeradataのカラム(first_nameなど)のプロファイリングを試みます。SQLエンジンを使用してカラム分析を実行します。分析が正しく実行されます。
結果ページでデータをドリルダウンしてみます:[Analysis Results] (分析結果)ビューの頻度統計テーブルで行を右クリックし、[View rows] (行を表示)を選択します。生成されたSQLクエリーに関するエラーが[SQL Editor] (SQLエディター)に表示されます。
この制限はTeradata Soundexの実装によるものです。Teradataデータベースでは、姓を含む文字列または式をシンプルなLatin文字で評価することが要求されます。
シンプルなLatin文字とは、チルダ(~)やアキュートアクセント(´)などの分音記号のないLatin文字のことです。シンプルなLatin文字には大文字と小文字がそれぞれ26文字あります。Teradataでは、SOUNDEX ('Sébastien') に対するシンプルな呼び出しさえ実行できません。したがって、'Sébastien'のような発音をする行はどれもドリルダウンできません。