カラム分析とデータマスキング操作でサポートされる文字タイプ
Talend Data PreparationまたはtDataMaskingコンポーネントを使用してデータをマスキングする場合、入力データ内の各文字は、サポートされるUnicode範囲内の同じ文字タイプの文字にマスキングされます。
Talend Studioでカラム分析を作成する場合は、アジア系の文字に 東アジアパターン頻度または東アジアパターン低頻度インジケーターを使用して、データのコンテンツ、ストラクチャー、およびクオリティを定義できます。
次のテーブルは、サポートされる文字タイプおよび関連するUnicode範囲(バージョン11.0)を説明しています。
詳細は、Unicode標準のドキュメンテーション(http://unicode.org/standard/standard.html)および文字コードのチャート(http://www.unicode.org/charts/)をご覧ください。
文字タイプ | Unicode範囲(バージョン11.0) | 対応する文字 |
---|---|---|
ラテン数字 | [0030-0039] | [0-9] |
ラテン小文字 | [0061-007A] [00DF-00F6] [00F8-00FF] | [a-z] [ß-ö] [ø-ÿ] |
ラテン大文字 | [0041-005A] [00C0-00D6] [00D8-00DE] | [A-Z] [À-Ö] [Ø-Þ] |
全角ラテン数字 | [FF10-FF19] | [0-9] |
全角ラテン小文字 | [FF41-FF5A] | [a-z] |
全角ラテン大文字 | [FF21-FF3A] | [A-Z] |
ひらがな | [3041-3096] 30FC 309D 309E | [ぁ-ゖ] ー ゝ ゞ |
半角カタカナ | [FF66-FF9D] | [ヲ-ン] |
全角カタカナ | [30A1-30FA] 30FC 30FD 30FE | [ァ-ヺ] ー ヽ ヾ |
表音拡張: [31F0-31FF] | [ㇰ-ㇿ] | |
漢字 | CJK拡張A: [4E00-9FEF] [3400-4DB5] | [一-] [㐀-䶵] |
CJK拡張B: [20000-2A6D6] | [𠀀-𪛖] | |
CJK拡張C: [2A700-2B734] | [𪜀-𫜴] | |
CJK拡張D: [2B740-2B81D] | [𫝀-𫠝] | |
CJK拡張E: [2B820-2CEA1] | [-] | |
CJK拡張F: [2CEB0-2EBE0] | [-] | |
CJK互換漢字: [F900-FA6D] [FA70-FAD9] | [豈-舘] [-] | |
CJK互換漢字補助: [2F800-2FA1D] | [-] | |
康熙部首: [2F00-2FD5] | [⼀-⿕] | |
CJK部首補助: [2E80-2E99] [2E9B-2EF3] | [⺀-⺙] [⺛-⻳] | |
CJKの記号および句読点: [3005-3005] [3007-3007] [3021-3029] [3038-303B] | [々-々] [〇-〇] [〡-〩] [〸-〻] | |
ハングル | [AC00-D7AF] | [가-] |