[Pattern frequency statistics] (パターン頻度統計)

このグループのインジケーターは最も頻度の高いパターンおよび頻度の低いパターンを計算します。

要確認:

SQLエンジンを使用して分析を実行する場合、[Row Count] (行数)インジケーターを選択しないと、分析結果にパーセンテージの値が表示されません。

[Date Pattern Frequency] (日付パターン頻度)は30タイプの日付パターンに対応しています。ユーザー定義のパターンが含まれていない場合、結果は空になります。ユーザー定義のパターンを追加するには、ユーザー定義のインジケーターを作成する必要があります。

パターン頻度インジケーター

パターン頻度インジケーターにはパターン頻度とパターン低頻度が含まれます。

パターン頻度インジケーターには次の2種類があります:

[Pattern Frequency] (パターン頻度)インジケーターは、個別のパターンから最も頻度の高いレコードの数を計算します。
[Pattern Low Frequency] (パターン低頻度)インジケーターは、個別のパターンから最も頻度の低いレコードの数を計算します。

これらのインジケーターは、英字をa、数値を9に変換することでパターンを生成します。

パターン頻度インジケーターとデータベースの互換性

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

インジケーター	Java解析エンジンでサポートされているデータ型	SQL解析エンジンでサポートされているデータ型
パターン頻度	Number Text Date	Number Text Date
パターン低頻度	Number Text Date	Number Text Date

東アジアパターン頻度インジケーター

東アジアパターン頻度インジケーターには東アジアパターン頻度と東アジアパターン低頻度が含まれます。

パターン頻度インジケーターには次の2種類があります:

[East Asia Pattern Frequency] (東アジアパターン頻度)インジケーターは、個別のパターンから最も頻度の高いレコードの数を計算します。
[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターは、個別のパターンから最も頻度の低いレコードの数を計算します。

これらのインジケーターにはラテン文字のみ使用できます。また、Javaエンジンでのみ使用できます。アジア系のデータのパターンを特定する時に有用です。

上記の2つのインジケーターは、アジア系の文字を下記のテーブルで説明するルールに従ってH,K,CやGなどの文字に変換することでパターンを生成します。

文字タイプ	使用方法
ラテン数字	すべてのASCII数字が9に置き換わります
Latin小文字	すべてのASCII Latin文字がaに置き換わります
Latin大文字	すべての大文字のLatin文字がAに置き換わります
全角ラテン数字	すべてのASCII数字が9に置き換わります
全角Latin小文字	すべてのASCII Latin文字がaに置き換わります
全角Latin大文字	すべての大文字のLatin文字がAに置き換わります
ひらがな	すべてのひらがな文字がHに置き換わります
半角カタカナ	すべての半角カタカナ文字がkに置き換わります
全角カタカナ	すべての全角カタカナ文字がKに置き換わります
片仮名	すべてのカタカナ文字がKに置き換わります
漢字	漢字がCに置き換わります
ハングル	ハングル文字がGに置き換わります

以下は、[East Asia Pattern Frequency] (東アジアパターン頻度)インジケーターおよび[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターを[address] (住所)カラムに使用したカラム分析の例です。

[東アジアパターン頻度]インジケーターと[東アジアパターン低頻度]インジケーターを適用する設定。

[East Asia Pattern Low Frequency] (東アジアパターン低頻度)インジケーターの分析結果は次のようになります。

これらの結果には、個別のパターンごとに最も頻度の低いレコードの数が示されます。文字と数字によるパターンもあれば、文字だけのパターンもあります。パターンは長さも異なります。すなわち、住所は一貫しておらず、訂正とクリーン化が必要になる場合があります。

東アジアパターン頻度インジケーターとデータベースの互換性

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

インジケーター	Java解析エンジンでサポートされているデータ型	SQL解析エンジンでサポートされているデータ型
東アジアパターン頻度	Number Text Date	なし
東アジアパターン低頻度	Number Text Date	なし

日付パターン頻度インジケーター

このインジケーターは、個別の日付パターンのレコード数をカウントすることで、最も頻度の高い日付パターンを評価します。

日付パターン頻度インジケーターとデータベースの互換性

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

インジケーター	Java解析エンジンでサポートされているデータ型	SQL解析エンジンでサポートされているデータ型
日付パターン頻度	Text Date	なし

単語ベースのパターンインジケーター

単語ベースのパターンインジケーターには、大文字と小文字が区別されるインジケーターと区別されないインジケーターが含まれています。

単語ベースのパターンインジケーターは、個別の各パターンのレコード数をカウントし、Javaエンジンでのみ使用できます。

これらのインジケーターは、文字列データ型とのみ使用できます。

大文字小文字が区別されるインジケーター

大文字と小文字を区別するインジケーターには次の2つのタイプがあります:

CSワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
CSワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されます:

[Pattern] (パターン)	説明
[Word]	大文字で始まり、小文字で構成される単語
[WORD]	大文字の単語
[word]	小文字の単語
[Char]	単一の大文字
[char]	単一の小文字
[Ideogram]	CJK統合漢字の1つ
[IdeogramSeq]	連続する表意文字
[hiraSeq]	日本語の連続するひらがな文字
[kataSeq]	日本語の連続するカタカナ文字
[hangulSeq]	各国語の連続するハングル文字
[digit]	アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number]	連続する数字

CSワードパターン頻度インジケーターとCSワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String	Pattern
A character is NOT a Word	[Char] [word] [word] [WORD] [char] [Word]
someWordsINwORDS	[word][Word][WORD][char][WORD]
Example123@domain.com	[Word][number]@[word].[word]
anotherExample8@domain.com	[word][Word][digit]@[word].[word]
袁花木蘭88	[Ideogram] [IdeogramSeq][number]
Latin2中文	[Word][digit][IdeogramSeq]
Latin3フランス	[Word][digit][kataSeq]
Latin4とうきょう	[Word][digit][hiraSeq]
Latin5나는 한국 사람입니다	[Word][digit][hangulSeq]

大文字と小文字が区別されるインジケーター

大文字と小文字を区別しないインジケーターには次の2つのタイプがあります:

CIワードパターン頻度インジケーターは、最も頻度が高いワードパターンを評価します。
CIワードパターン低頻度インジケーターは、最も頻度が低いワードパターンを評価します。

パターンは単語にフォーカスし、大文字小文字が区別されません:

パターン	説明
[word]	小文字の単語
[char]	単一の小文字
[Ideogram]	CJK統合漢字の1つ
[IdeogramSeq]	連続する表意文字
[hiraSeq]	日本語の連続するひらがな文字
[kataSeq]	日本語の連続するカタカナ文字
[hangulSeq]	各国語の連続するハングル文字
[digit]	アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか
[number]	連続する数字
[alnum]	文字とアラビア数字で構成される英数字の値

CIワードパターン頻度インジケーターとCIワードパターン低頻度インジケーターを使用すると、以下の文字列が以下のパターンに置換されます:

String	Pattern
A character is NOT a Word	[char] [word] [word] [word] [char] [word]
someWordsINwORDS	[word]
Example123@domain.com	[alnum]@[word].[word]
anotherExample8@domain.com	[alnum]@[word].[word]
袁花木蘭88	[Ideogram] [IdeogramSeq][number]
Latin2中文	[word][digit][IdeogramSeq]
Latin3フランス	[word][digit][kataSeq]
Latin4とうきょう	[word][digit][hiraSeq]
Latin5나는 한국 사람입니다	[word][digit][hangulSeq]

単語ベースのパターン頻度インジケーターとデータベースの互換性

どのデータベースでも選択できるインジケーターを次のテーブルに示します。

インジケーター	Java解析エンジンでサポートされているデータ型	SQL解析エンジンでサポートされているデータ型
CSワードパターン頻度	Number Text Date	なし
CSワードパターン低頻度	Number Text Date	なし
CIワードパターン頻度	Number Text Date	なし
CIワードパターン低頻度	Number Text Date	なし

パターン頻度統計インジケーターの使用時に使用されるエンジンとサポートされるデータベースタイプのリスト

Talend StudioのProfilingパースペクティブからカラム分析を作成する時に、パターン頻度統計のインジケーターを使用してデータベースのプロファイリングを行うことができます。分析を実行するために、プロファイリングを行うデータベースのタイプに応じてJavaまたはSQLエンジンを使用できます。

パターン頻度統計インジケーター使用時のデータベースタイプに基づくエンジンの互換性
データベースの種類	Javaエンジン	SQLエンジン
Exasol	可	可
Hive	可	可
MySQL	可	可
Netezza	可	可
Oracle	可	可
PostgreSQL	可	可
Sybase	可	不可
Teradata	可	不可
Vertica	可	Yes

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください