パターンの種類
[DQ Repository] (DQリポジトリー)ツリービューの[Patterns] (パターン)フォルダーの下に、「正規表現」と「SQLパターン」という2種類のパターンがリスト表示されます。
正規表現(regex)は定義済みのパターンで、接続したデータベース内のテキストを検索やオペレーションに使用できます。また、独自の正規表現を作成してカラムの分析に使用することもできます。
ジョブ内でパターンを選択する時は、現在のデータベースタイプ用の正規表現が使用されます。
- このデータベースタイプに対する正規表現が存在しない場合は、選択したパターン内のデフォルトの正規表現が使用されます。
- ジョブで使用されているパターン内で、このデータベースタイプの正規表現を削除すると、ジョブは、選択したパターン内のデフォルトの正規表現でアップデートされます。
SQLパターンはSQLクエリーで使用される一種のカスタマイズされたパターンです。これらのパターンには多くの場合パーセント記号(%)が含まれます。SQLワイルドカードの詳細は、SQL Wildcard (英語のみ)をご覧ください。
上記の2種類のパターンを使用してカラムの分析、または一連のカラムの分析(単純なテーブル分析)を行うことができます。これらのパターンに基づく分析によって、分析済みカラムの値に見られるさまざまなデータパターンの出現頻度を調べることができます。詳細は、データベースカラムで基本分析を作成およびパターンを使ってカラムセット分析を作成をご覧ください。
Talend Studioで、パターンを使用した分析結果を表すグラフを生成できます。また、生成されたグラフを文字で表す[Analysis Results] (分析結果)ビューでテーブルを表示することもできます。これらのグラフや分析結果から、リスト表示されたパターンに基づく無効な値の割合を簡単に調べることができます。
SQLパターンと正規表現の管理方法は、Java向けのものも含めて同じです。詳細は、正規表現とSQLパターンを管理をご覧ください。
情報メモ注: 一部のデータベースは正規表現をサポートしていません。このようなデータベースで正規表現を使用できるようにするには、多少の設定作業が必要となります。詳細は、データベース内でユーザー定義ファンクションを管理をご覧ください。
どのデータベースでも選択できるパターンを次のテーブルに示します。
インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
---|---|---|
SQLパターン | なし | すべてのデータ型 |
正規表現パターン | すべてのデータ型 | すべてのデータ型 |