メイン コンテンツをスキップする 補完的コンテンツへスキップ

分析済みカラムの重複値を特定するジョブを生成

Profilingパースペクティブを使ってデータベーステーブルのカラムを分析し、個別値、一意値、重複値の数についてシンプル統計を行えば、後で既製ジョブを生成することで、指定されたカラムから重複値を除外できるようになります。

始める前に

Oracleデータベースに接続する場合は、Oracleデータベースクライアントをインストールしてください。

手順

  1. Profilingパースペクティブから:
    1. カラム分析を作成します。カラム分析の作成方法の詳細なステップは、分析するカラムを定義してインジケーターを設定をご覧ください。
    2. 指定されたカラムでシンプル統計インジケーターを設定します。
  2. 解析がMySQL 8データベースに接続している場合は、MySQLデータベースサーバーのコマンドラインでSET GLOBAL local_infile = 'ON';と定義します。
  3. 分析を実行し、結果を[Analysis Results] (分析結果)ビュー内に開きます。
  4. 一意値および重複値を分類する分析済みカラムの名前をクリックしてから、[Simple Statistics] (シンプル統計)をクリックして、シンプル統計セクションを展開します。
    [シンプル統計]セクションからのラベルのコンテキストメニュー。
  5. [Label] (ラベル)リストで、[Distinct Count] (個別数)[Unique Count] (一意数)[Duplicate Count] (超複数)のいずれかを右クリックして、コンテキストメニューから[Identify duplicates] (重複を検出)を選択します。

    Talend StudioIntegrationパースペクティブが開き、該当するコンポーネントで生成されたジョブが表示されます。

    tMysqlInput、tUniqRow、tMysqlOutputBulkExec、tFileOutputDelimitedの各コンポーネントを使うジョブ。

    データベース入力コンポーネントとtUniqRowコンポーネントは、接続および分析中のカラムに応じて既に設定されています。

    2つの出力コンポーネントは、この既製ジョブではファイルコンポーネントですが、これをデータベース出力コンポーネントに置き換えて、重複値および個別値を直接目的のデータベースに書き込むこともできます。

  6. 2つの出力コンポーネントを次の手順で設定します。
    1. 最初に[Uniques] (一意値)接続を持つ出力コンポーネントをダブルクリックし、[Local Filename] (ローカルファイル名)フィールドで個別値を保存する出力ファイルのパスを設定します。
    2. 次に[Duplicates] (重複)接続を持つ出力コンポーネントをダブルクリックし、[File Name] (ファイル名)フィールドで重複値を保管する出力ファイルのパスを設定します。
    3. ジョブを保存し、F6を押して実行します。
      個別値および重複値は、指定された出力ファイルに書き込まれます。
    4. 必要に応じて、生成されたジョブでtFileOutputdelimitedを右クリックし、[Data Viewer] (データビューアー)を選択します。
      Talend Studioに標準化されたデータのプレビューが開きます。
      分析済みデータのプレビュー概要。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。