[Pattern frequency statistics] (パターン頻度統計)
SQLエンジンを使用して分析を実行する場合、[Row Count] (行数)インジケーターを選択しないと、分析結果にパーセンテージの値が表示されません。
[Date Pattern Frequency] (日付パターン頻度)は30タイプの日付パターンに対応しています。ユーザー定義のパターンが含まれていない場合、結果は空になります。ユーザー定義のパターンを追加するには、ユーザー定義のインジケーターを作成する必要があります。
パターン頻度インジケーター
- [Pattern Frequency] (パターン頻度)インジケーターは、個別のパターンから最も頻度の高いレコードの数を計算します。
- [Pattern Low Frequency] (パターン低頻度)インジケーターは、個別のパターンから最も頻度の低いレコードの数を計算します。
これらのインジケーターは、英字をa、数値を9に変換することでパターンを生成します。
パターン頻度インジケーターとデータベースの互換性
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
| インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
|---|---|---|
| パターン頻度 |
|
|
| パターン低頻度 |
|
|
東アジアパターン頻度インジケーター
- [East Asia Pattern Frequency] (東アジアパターン頻度)インジケーターは、個別のパターンから最も頻度の高いレコードの数を計算します。
- [East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターは、個別のパターンから最も頻度の低いレコードの数を計算します。
これらのインジケーターにはラテン文字のみ使用できます。また、Javaエンジンでのみ使用できます。アジア系のデータのパターンを特定する時に有用です。
上記の2つのインジケーターは、アジア系の文字を下記のテーブルで説明するルールに従ってH,K,CやGなどの文字に変換することでパターンを生成します。
| 文字タイプ | 使用方法 |
|---|---|
| ラテン数字 | すべてのASCII数字が9に置き換わります |
| Latin小文字 | すべてのASCII Latin文字がaに置き換わります |
| Latin大文字 | すべての大文字のLatin文字がAに置き換わります |
| 全角ラテン数字 | すべてのASCII数字が9に置き換わります |
| 全角Latin小文字 | すべてのASCII Latin文字がaに置き換わります |
| 全角Latin大文字 | すべての大文字のLatin文字がAに置き換わります |
| ひらがな | すべてのひらがな文字がHに置き換わります |
| 半角カタカナ | すべての半角カタカナ文字がkに置き換わります |
| 全角カタカナ | すべての全角カタカナ文字がKに置き換わります |
| 片仮名 | すべてのカタカナ文字がKに置き換わります |
| 漢字 | 漢字がCに置き換わります |
| ハングル | ハングル文字がGに置き換わります |
以下は、[East Asia Pattern Frequency] (東アジアパターン頻度)インジケーターおよび[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターを[address] (住所)カラムに使用したカラム分析の例です。
[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターの分析結果は次のようになります。
これらの結果には、個別のパターンごとに最も頻度の低いレコードの数が示されます。文字と数字によるパターンもあれば、文字だけのパターンもあります。パターンは長さも異なります。すなわち、住所は一貫しておらず、訂正とクリーン化が必要になる場合があります。
東アジアパターン頻度インジケーターとデータベースの互換性
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
| インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
|---|---|---|
| 東アジアパターン頻度 |
|
なし |
| 東アジアパターン低頻度 |
|
なし |
日付パターン頻度インジケーター
このインジケーターは、個別の日付パターンのレコード数をカウントすることで、最も頻度の高い日付パターンを評価します。
日付パターン頻度インジケーターとデータベースの互換性
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
| インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
|---|---|---|
| 日付パターン頻度 |
|
なし |
単語ベースのパターンインジケーター
単語ベースのパターンインジケーターには、大文字と小文字が区別されるインジケーターと区別されないインジケーターが含まれています。
単語ベースのパターンインジケーターは、個別の各パターンのレコード数をカウントし、Javaエンジンでのみ使用できます。
これらのインジケーターは、文字列データ型とのみ使用できます。
大文字小文字が区別されるインジケーター
- CSワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
- CSワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。
パターンは単語にフォーカスし、大文字小文字が区別されます:
| パターン | 説明 |
|---|---|
| [Word] | 大文字で始まり、小文字で構成される単語 |
| [WORD] | 大文字の単語 |
| [word] | 小文字の単語 |
| [Char] | 単一の大文字 |
| [char] | 単一の小文字 |
| [Ideogram] | CJK統合漢字の1つ |
| [IdeogramSeq] | 連続する表意文字 |
| [hiraSeq] | 日本語の連続するひらがな文字 |
| [kataSeq] | 日本語の連続するカタカナ文字 |
| [hangulSeq] | 各国語の連続するハングル文字 |
| [digit] | アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか |
| [number] | 連続する数字 |
CSワードパターン頻度インジケーターとCSワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:
| String | Pattern |
|---|---|
| A character is NOT a Word | [Char] [word] [word] [WORD] [char] [Word] |
| someWordsINwORDS | [word][Word][WORD][char][WORD] |
| Example123@domain.com | [Word][number]@[word].[word] |
| anotherExample8@domain.com | [word][Word][digit]@[word].[word] |
| 袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
| Latin2中文 | [Word][digit][IdeogramSeq] |
| Latin3フランス | [Word][digit][kataSeq] |
| Latin4とうきょう | [Word][digit][hiraSeq] |
| Latin5나는 한국 사람입니다 | [Word][digit][hangulSeq] |
大文字と小文字が区別されるインジケーター
- CIワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
- CIワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。
パターンは単語にフォーカスし、大文字小文字が区別されません:
| パターン | 説明 |
|---|---|
| [word] | 小文字の単語 |
| [char] | 単一の小文字 |
| [Ideogram] | CJK統合漢字の1つ |
| [IdeogramSeq] | 連続する表意文字 |
| [hiraSeq] | 日本語の連続するひらがな文字 |
| [kataSeq] | 日本語の連続するカタカナ文字 |
| [hangulSeq] | 各国語の連続するハングル文字 |
| [digit] | アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか |
| [number] | 連続する数字 |
| [alnum] | 文字とアラビア数字で構成される英数字の値 |
CIワードパターン頻度インジケーターとCIワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:
| String | Pattern |
|---|---|
| A character is NOT a Word | [char] [word] [word] [word] [char] [word] |
| someWordsINwORDS | [word] |
| Example123@domain.com | [alnum]@[word].[word] |
| anotherExample8@domain.com | [alnum]@[word].[word] |
| 袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
| Latin2中文 | [word][digit][IdeogramSeq] |
| Latin3フランス | [word][digit][kataSeq] |
| Latin4とうきょう | [word][digit][hiraSeq] |
| Latin5나는 한국 사람입니다 | [word][digit][hangulSeq] |
単語ベースのパターン頻度インジケーターとデータベースの互換性
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
| インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
|---|---|---|
| CSワードパターン頻度 |
|
なし |
| CSワードパターン低頻度 |
|
なし |
| CIワードパターン頻度 |
|
なし |
| CIワードパターン低頻度 |
|
なし |
パターン頻度統計インジケーターの使用時に使用されるエンジンとサポートされるデータベースタイプのリスト
| データベースの種類 | Javaエンジン | SQLエンジン |
|---|---|---|
| Exasol | 可 | 可 |
| Hive | 可 | Yes |
| MySQL | 可 | 可 |
| Netezza | 可 | 可 |
| Oracle | 可 | 可 |
| PostgreSQL | 可 | 可 |
| Sybase | 可 | 不可 |
| Teradata | 可 | 不可 |
| Vertica | 可 | あり |