Wortbasierte Muster
Talend Cloud Data Stewardship führt ein wortbasiertes Muster-Profiling durch und verarbeitet die Wortmuster der Daten, die Sie in Kampagnen laden. Sie können diese Muster dann heranziehen, um Tasks nach Inhalt und Datenstruktur zu filtern, bevor Sie die Tasks zuweisen oder erledigen.
Wortmuster unterscheiden zwischen Groß- und Kleinschreibung und werden nur für nicht-numerische Felder verarbeitet, wie z. B. Text, boolesche Werte und semantische Typen. Die folgende Tabelle enthält die Wortmuster und deren Beschreibung.
Muster | Beschreibung |
---|---|
[Word] | Wort beginnend mit einem Großbuchstaben und bestehend aus Kleinbuchstaben |
[WORD] | Wort mit Großbuchstaben |
[word] | Word mit Kleinbuchstaben |
[Char] | Einzelner Großbuchstabe |
[char] | Einzelner Kleinbuchstabe |
[Ideogram] | Eines der vereinheitlichten CJK-Ideogramme |
[IdeogramSeq] | Ideogrammsequenz |
[hiraSeq] | Sequenz aus japanischen Hiragana-Schriftzeichen |
[kataSeq] | Sequenz aus japanischen Katakana-Schriftzeichen |
[hangulSeq] | Sequenz aus koreanischen Hangul-Schriftzeichen |
[digit] | Eine der arabischen Zahlen: 0,1,2,3,4,5,6,7,8,9 |
[number] | Sequenz aus Ziffern |
Die folgenden Beispiele illustrieren die Auswertung bestimmter Datensätze in Talend Cloud Data Stewardship.
String | Pattern |
---|---|
A character is NOT a Word | [Char] [word] [word] [WORD] [char] [Word] |
someWordsINwORDS | [word][Word][WORD][char][WORD] |
Example123@domain.com | [Word][number]@[word].[word] |
anotherExample8@domain.com | [word][Word][digit]@[word].[word] |
袁 花木蘭88 | [Ideogram] [IdeogramSeq][number] |
Latin2中文 | [Word][digit][IdeogramSeq] |
Latin3フランス | [Word][digit][kataSeq] |
Latin4とうきょう | [Word][digit][hiraSeq] |
Latin5나는 한국 사람입니다 | [Word][digit][hangulSeq] |