メイン コンテンツをスキップする 補完的コンテンツへスキップ

異なるテーブルにある同一カラムの比較

Talend Studioでは、2つの異なるテーブルにある同一カラムのセットを比較する分析を作成できます。この冗長性分析はデータベーステーブルにのみ対応しています。

始める前に

Profilingパースペクティブでデータベース接続が少なくとも1つ設定されていること。詳細は、データベースに接続をご覧ください。

このビューからは、実際に分析されたデータにデータエクスプローラー経由でアクセスすることもできます。

分析されたデータ行にアクセスするには、テーブルのいずれかの行を右クリックし、実行するアクションを選択します:
  • [View match rows] (マッチする行を表示): 2つの同一カラムセットでマッチする可能性があるすべての行のリストにアクセスします。
  • [View not match rows] (マッチしない行を表示): 2つの同一カラムセットでマッチしない可能性があるすべての行のリストにアクセスします。
  • [View rows] (行を表示): 2つの同一カラムセットのすべての行のリストにアクセスします。
情報メモ警告: データエクスプローラーでは、ユーザー名が空白である接続(MS SQL Serverのシングルサインオンなど)はサポートされていません。そのような接続を使ってデータを分析し、Data Explorerパースペクティブでデータ行を表示しようとすると、警告メッセージが表示され、SQL Serverへの接続認証情報を設定するよう求められます。

次の表は、2つの同一カラムセットでマッチするすべての行をデータエクスプローラーでリスト表示したもので、この例には8件あります。

2つのセットでマッチする行の数。

SQLエディターで、エディターツールバーにある保存アイコンをクリックすると、実行されたクエリーが保存され、[DQ repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Source Files] (ソースファイル)フォルダーの下にリスト表示されます。詳細は、インジケーターで実行したクエリーの保存をご覧ください。

次の表は、2つの同一カラムセットでマッチしないすべての行をデータエクスプローラーでリスト表示したもので、この例には3件あります。

2つのセットでマッチする行の数。

冗長性分析を定義

手順

  1. [DQ repository] (DQリポジトリー)ツリービューで[Data Profiling] (データプロファイリング)を展開し、[Analyses] (分析) > [New analysis] (新しい分析)を右クリックします。
    Analysesノードのコンテキストメニュー。
    [Create new analysis] (新しい分析を作成)ウィザードが開きます。
  2. [Table] (テーブル) > [Redundancy Analysis] (冗長性分析)を選択し、[Create] (作成)をクリックします。
  3. [Name] (名前)フィールドに、現在の分析の名前を入力します。
    情報メモ重要:

    ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " " " < > といった特殊文字は項目名に使用しないでください。

    ファイルシステムでは、これらの文字はすべて"_"に置き換えられ、重複する項目が作成されてしまう場合があります。

  4. 該当するフィールドで分析メタデータ(目的と説明)を設定し、[Next] (次へ)をクリックします。

比較する同一カラムの選択

手順

  1. [Connection] (接続)メニューで接続を選択し、[Next] (次へ)をクリックします。
  2. [Compare] (比較)メニューで、比較するカラムを選択します。
    この例では、phone1テーブルとphone2テーブルにある同一のカラムを比較したいと考えています。
    [Compare] (比較)メニューにおける列比較の概要。
  3. [Select column A] (カラムAを選択)をクリックし、[Column selection] (カラム選択)ダイアログボックスを開きます。
  4. データベース接続内のカタログ/スキーマを参照して、分析したいカラムが含まれているテーブルに移動します。
    [Table filter] (テーブルフィルター)フィールドや[Column filter] (カラムフィルター)フィールドに必要なテキストを入力することで、テーブルやカラムのリストをフィルタリングできます。リストには、入力したテキストに対応するテーブルまたはカラムのみ表示されます。
  5. テーブル名をクリックし、含まれているカラムをすべて[Column selection] (カラム選択)ダイアログボックスの右にあるパネルにリスト表示させます。
  6. 右側のリストで、分析するカラムのチェックボックスをオンにしてOKをクリックし、次のステップに進みます。
    分析するカラムは[DQ repository] (DQリポジトリー)ツリービューからエディターに直接ドラッグできます。
    [Analyzed Columns] (分析済みカラム)ビューにリスト表示されているいずれかのカラムを右クリックして[Show in DQ repository view] (DQリポジトリービューで表示)を選択すると、選択されたカラムがツリービューの対応する接続の下へ自動的に配置されます。
  7. [Select column B] (カラムBを選択)をクリックし、同じステップで2番目のカラムのセットを選択するか、右のカラムパネルにドラッグします。
  8. AセットのデータをBセットのデータとマッチさせる(その逆ではない)場合は、[Compute only number of A rows not in B] (B行ではなくA行の数のみ計算)チェックボックスをオンにします。
  9. マッチング時にNull値を無視する場合は、[Ignore null] (Nullを無視)チェックボックスをオンにします。
  10. 必要であればSQL WHERE句を入力し、分析を実行するデータをフィルタリングします。

分析を確定および実行

このタスクについて

分析ごとの接続数やコンテキストなど、いくつかの詳細設定を設定できます。

手順

  1. [Settings] (設定)メニューの[Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに許可される同時接続の数を設定します。
    この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。
  2. コンテキストを使用する場合は、[Open context view] (コンテキストビューを開く)をクリックします。
    [Context] (コンテキスト)ビューが開きます。ここでコンテキストを管理できます。コンテキストと変数の詳細は、分析でコンテキスト変数を使用をご覧ください。
  3. [Save and Run] (保存して実行)をクリックします。確認のメッセージが表示されます。
    情報メモヒント: 設定のみ保存したい場合は、右上にある[Save analysis] (分析を保存)をクリックします。
  4. 操作を続行する場合はOKをクリックします。

タスクの結果

[Analysis results] (分析結果)ビューが開き、分析結果が表示されます。

この例では、phone1テーブルのカラムにあるデータの0%が、phone2テーブルの列にある同じデータとマッチしています。重複はありません。

[Results] (結果)セクションに分析の結果が表示されている状態。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。