メイン コンテンツをスキップする 補完的コンテンツへスキップ

カラム内の異常の検出(機能的な依存項目の分析)

この分析タイプでは、カラムを「決定エレメント」または「依存」として定義し、依存カラムにある値を決定エレメントカラムと対比して分析することで、カラムの依存項目に存在する異常を検出できます。この分析はデータベーステーブルにのみ対応しています。

このタスクについて

この分析タイプでは、決定エレメントカラムの値が依存カラムにある他の値をファンクションで決定する程度を検出します。

それによって、データ内の問題(有効でない値など)を特定できるようになります。たとえば、米国のZIPコードを含んでいるカラムと、米国の州を含んでいるカラムの間にある依存項目を分析する場合、同じZIPコードは常に州が同じであることが必要です。この2つのカラムに関数従属性分析を実行すると、この関数依存項目で違反が存在するかどうかが表示されます。

分析を定義してカラム内の異常を検出

Before you begin

Talend StudioProfilingパースペクティブでデータベース接続が少なくとも1つ設定されていること。

Procedure

  1. [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)を展開します。
  2. フィルターフィールドで、functional dependency analysisの最初の数文字を入力して、リストから[Functional Dependency Analysis] (機能的な依存項目の分析)を選択し、[Next] (次へ)をクリックします。
  3. 名前を入力します。
  4. オプションとして、カラム分析のメタデータ(目的説明作成者)を入力します。
  5. [Next] (次へ)をクリックします。

「決定エレメント」または「依存」のいずれかとしてカラムを選択

Procedure

  1. [DB connections] (データベース接続)を展開し、分析するデータベースに移動して選択し、[Finish] (終了)をクリックして[New Analysis] (新しい分析)ウィザードを閉じます。
    定義された分析メタデータと共に分析エディターが開き、新規作成された分析用のフォルダーが[DQ Repository] (DQリポジトリー)ツリービュー内の[Analyses] (分析)の下に表示されます。
    [分析済みカラムセット]セクションの概要。
    [Data Preview] (データプレビュー)セクションにすべてのテーブルカラムのサンプルデータが表示されます。
  2. [Left Column] (左カラム)パネルで[A Columns Set] (Aセットのカラム)をクリックし、[Column Selection] (カラム選択)ダイアログボックスを開きます。
    ここで、依存カラムにある値に対して分析するカラムの最初のセットを選択できます。また、カラムは[DQ Repository] (DQリポジトリー)ツリービューから左のカラムパネルに直接ドラッグすることもできます。
    この例では、cityカラムに存在するレコードとstate_provinceカラムに存在するレコードを相互評価し、州名がリスト表示されている都市名に一致するかどうかを調べます。また、その逆も行われます。
    [カラム選択]ウィンドウの概要。
  3. [Column Selection] (カラム選択)ダイアログボックスで[DB connections] (データベース接続)を展開し、決定エレメントカラムとして定義するカラムを参照します。
    [Table filter] (テーブルフィルター)フィールドや[Column filter] (カラムフィルター)フィールドに必要なテキストを入力すると、テーブルやカラムのリストをフィルタリングできます。リストには、入力したテキストに対応するテーブルまたはカラムのみ表示されます。
  4. 分析するカラムのチェックボックスをオンにしてOKをクリックし、次のステップに進みます。
    選択されたカラムが、[Analyzed Columns Set] (分析済みカラムのセット)ビューの[Left Columns] (左のカラム)パネルに表示されます。この例では、依存カラムとしてcityカラムを選択します。
    [左カラム]セクションと[右カラム]セクションの概要。
  5. 依存カラムについても同じ方法で選択するか、[DQ Repository](DQリポジトリー)ツリービューから[Right Columns] (右のカラム)パネルにドラッグします。この例では、依存カラムとしてstate_provinceカラムを選択します。この関係では、州名が、リスト表示されている都市名と一致するかどうかが表示されます。
    [Analyzed Columns] (分析済みカラム)ビューにリスト表示されているいずれかのカラムを右クリックして[Show in DQ Repository view] (DQリポジトリービューで表示)を選択すると、選択されたカラムがツリービューの対応する接続の下へ自動的に配置されます。
  6. [Reverse columns] (カラムを反転)タブをクリックすると、定義されたカラムが自動的に反転し、どの都市名がリスト表示されている州名と一致するかという反対の関係が評価されるようになります。
    [Data Preview] (データプレビュー)セクションで[Connection] (接続)リストから別の接続を選択し、別のデータベースに選択することもできます。このリストには、Talend Studioで作成したすべての接続が表示されます。[Analyzed Columns Set] (分析済みカラムのセット)ビューにリスト表示されているカラムが、新しく設定するデータベース接続に存在しない場合は警告メッセージが表示され、操作を続行またはキャンセルできます。

ファンクション依存分析を確定および実行

Procedure

  1. 必要に応じて、[Analysis Parameter] (分析パラメーター)ビューの[Number of connections per analysis] (分析ごとの接続数)フィールドで、選択されたデータベースに対して許可する分析ごとの同時接続数を設定します。
    この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。
  2. 分析を保存し、F6を押して実行します。

    情報メッセージが開き、操作が進行中であることが確認できます。また、分析エディターが[Analysis Results] (分析結果)ビューに切り替わります。

    ファンクション依存分析の結果を示すグラフ。
    このファンクション従属性分析は、cityカラムに存在するレコードとstate_provinceカラムに存在するレコードを相互評価し、都市名がリスト表示されている州名と一致するかどうかを調べます。また、その逆も行われます。[%Match] (%一致)に返された結果は、各決定エレメントカラムの機能的な依存項目の強さを示します。一致しないレコードは、赤で表示されます。
    結果テーブルの#Matchカラムには、各分析済みカラムの重複を除いた決定エレメント値の数がリスト表示されます。分析結果の#rowカラムには、決定エレメント属性と依存属性の間にある実際の関係がリスト表示されます。この例では、結果テーブルの最初の行にある#Matchは重複を除いた都市の数を表し、#rowは重複を除いたペア(cityとstate_province)を表します。この2つの数値が同等ではないため、ここでのファンクション依存項目は部分的なもので、その比率(%Match)は実際のファンクション依存の強さを測定するものです。この2つの数値が等しい場合、ファンクション依存項目が「厳格」になります。たとえば、各都市は各州で1回のみ表示されるようになります。
    情報メモNote: 2つの分析済みカラムのいずれかにNULL値が存在する場合は、「依存項目の強さ」が弱まります。システムはNULL値を無視せず、ファンクション依存に違反する値として計算します。
  3. [Analysis Results] (分析結果)で、いずれかの依存項目の行を右クリックし、実行するアクションを選択します:
    • [View valid/invalid rows] (有効な行/無効な行を表示): ファンクション依存項目分析に基づいて測定した有効な行、または無効な行のリスト(SQLエディター内)にアクセスします。
    • [View valid/invalid rows] (有効な値/無効な値を表示): ファンクション依存項目分析に基づいて測定した有効な値、または無効な値のリスト(SQLエディター内)にアクセスします。
    • [View detailed valid/detailed invalid values] (有効な値の詳細/無効な値の詳細を表示): ファンクション依存項目分析に基づいて測定した有効な値、または無効な値の詳細なリスト(SQLエディター内)にアクセスします。
    SQLエディターのエディターツールバーにある保存アイコンをクリックすると実行されたクエリーを保存し、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Source Files] (ソースファイル)フォルダーの下にリスト表示できます。詳細は、インジケーターで実行したクエリーの保存をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。