単語ベースのパターン
Talend Data Stewardshipは単語ベースのパターンプロファイリングを実行し、キャンペーンにロードするデータのワードパターンを計算します。そのため、タスクの割り当てや解決の前に、データのコンテンツとストラクチャーに従って、それらのパターンを使用してタスクをフィルタリングできます。
ワードパターンでは大文字小文字が区別され、テキスト、ブール値、セマンティックタイプなどの数値以外のフィールドについてのみ計算が行われます。ワードパターンとその説明を次の表に示します。
パターン | 説明 |
---|---|
[Word] | 大文字で始まり、小文字で構成される単語 |
[WORD] | 大文字の単語 |
[word] | 小文字の単語 |
[Char] | 単一の大文字 |
[char] | 単一の小文字 |
[Ideogram] | CJK統合漢字の1つ |
[IdeogramSeq] | 連続する表意文字 |
[hiraSeq] | 日本語の連続するひらがな文字 |
[kataSeq] | 日本語の連続するカタカナ文字 |
[hangulSeq] | 各国語の連続するハングル文字 |
[digit] | アラビア数字(0、1、2、3、4、5、6、7、8、9)のいずれか |
[number] | 連続する数字 |
次の例は、Talend Data Stewardshipで特定のレコードがどう解釈されるかを示したものです。
String | Pattern |
---|---|
A character is NOT a Word | [Char] [word] [word] [WORD] [char] [Word] |
someWordsINwORDS | [word][Word][WORD][char][WORD] |
Example123@domain.com | [Word][number]@[word].[word] |
anotherExample8@domain.com | [word][Word][digit]@[word].[word] |
袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
Latin2中文 | [Word][digit][IdeogramSeq] |
Latin3フランス | [Word][digit][kataSeq] |
Latin4とうきょう | [Word][digit][hiraSeq] |
Latin5나는 한국 사람입니다 | [Word][digit][hangulSeq] |