単語ベースのパターンインジケーター
単語ベースのパターンインジケーターには、大文字小文字が区別されるインジケーターと大文字小文字が区別されないインジケーターが含まれます。
単語ベースのパターンインジケーターは、個別の各パターンのレコード数をカウントし、Javaエンジンでのみ使用できます。
これらのインジケーターは、文字列データ型とのみ使用できます。
大文字小文字が区別されるインジケーター
| インジケーター | 目的 |
|---|---|
| CSワードパターン頻度 | 最も頻度の高いワードパターンを評価します。 |
| CSワードパターン低頻度 | 最も頻度の低いワードパターンを評価します。 |
パターンは単語にフォーカスし、大文字小文字が区別されます:
| パターン | 説明 |
|---|---|
| [Word] | 大文字で始まり、小文字で構成される単語 |
| [WORD] | 大文字の単語 |
| [word] | 小文字の単語 |
| [Char] | 単一の大文字 |
| [char] | 単一の小文字 |
| [Ideogram] | CJK統合漢字の1つ |
| [IdeogramSeq] | 連続する表意文字 |
| [hiraSeq] | 日本語の連続するひらがな文字 |
| [kataSeq] | 日本語の連続するカタカナ文字 |
| [hangulSeq] | 各国語の連続するハングル文字 |
| [digit] | アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか |
| [number] | 連続する数字 |
CSワードパターン頻度インジケーターとCSワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:
| String | Pattern |
|---|---|
| A character is NOT a Word | [Char] [word] [word] [WORD] [char] [Word] |
| someWordsINwORDS | [word][Word][WORD][char][WORD] |
| Example123@domain.com | [Word][number]@[word].[word] |
| anotherExample8@domain.com | [word][Word][digit]@[word].[word] |
| 袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
| Latin2中文 | [Word][digit][IdeogramSeq] |
| Latin3フランス | [Word][digit][kataSeq] |
| Latin4とうきょう | [Word][digit][hiraSeq] |
| Latin5나는 한국 사람입니다 | [Word][digit][hangulSeq] |
大文字小文字が区別されないインジケーター
| インジケーター | 目的 |
|---|---|
| CIワードパターン頻度 | 最も頻度の高いワードパターンを評価します。 |
| CIワードパターン低頻度 | 最も頻度の低いワードパターンを評価します。 |
パターンは単語にフォーカスし、大文字小文字が区別されません:
| パターン | 説明 |
|---|---|
| [word] | 小文字の単語 |
| [char] | 単一の小文字 |
| [Ideogram] | CJK統合漢字の1つ |
| [IdeogramSeq] | 連続する表意文字 |
| [hiraSeq] | 日本語の連続するひらがな文字 |
| [kataSeq] | 日本語の連続するカタカナ文字 |
| [hangulSeq] | 各国語の連続するハングル文字 |
| [digit] | アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか |
| [number] | 連続する数字 |
| [alnum] | 文字とアラビア数字で構成される英数字の値 |
CIワードパターン頻度インジケーターとCIワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:
| String | Pattern |
|---|---|
| A character is NOT a Word | [char] [word] [word] [word] [char] [word] |
| someWordsINwORDS | [word] |
| Example123@domain.com | [alnum]@[word].[word] |
| anotherExample8@domain.com | [alnum]@[word].[word] |
| 袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
| Latin2中文 | [word][digit][IdeogramSeq] |
| Latin3フランス | [word][digit][kataSeq] |
| Latin4とうきょう | [word][digit][hiraSeq] |
| Latin5나는 한국 사람입니다 | [word][digit][hangulSeq] |
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
| データ型 | 数字 | Text | Date | その他 | ||||
|---|---|---|---|---|---|---|---|---|
| 分析エンジンのタイプ | Java | SQL | Java | SQL | Java | SQL | Java | SQL |
| CSワードパターン頻度 |
|
|
|
|
|
|
|
|
| CSワードパターン低頻度 |
|
|
|
|
|
|
|
|
| CIワードパターン頻度 |
|
|
|
|
|
|
|
|
| CIワードパターン低頻度 |
|
|
|
|
|
|
|
|