メイン コンテンツをスキップする 補完的コンテンツへスキップ

tDataQualityRules

データクオリティルールを使い、Talend Studio

  • Talend Cloud Data Stewardship。詳細は、Talend Cloud Data Stewardshipユーザーガイドでデータクオリティルールとはをご覧ください。
  • Talend Data Stewardship 8.0 R2022-07以降のハイブリッドバージョン詳細は、Talend Data StewardshipユーザーガイドでWhat is a data quality rule?をご覧ください。ハイブリッドの詳細は、Talend Cloudのハイブリッドとはをご覧ください。
  • Talend Cloud Data Inventory。詳細は、Talend Cloud Data InventoryユーザーガイドでWhat is a data quality rule?をご覧ください。このアプリにはTalend Studio 8.0 R2023-06以降で接続できます。

データクオリティルールとは、データが準拠すべき値を定義したビジネス要件のセットのことです。

データクオリティルールを取得してJARファイルにロードするため、tDataQualityRulesTalend Studioを上記のいずれかのアプリに接続させます。Talend Studioは取得されたライブラリーを使うので、データクオリティルールを自分のデータに適用できます。このコンポーネントが動作するしくみについては、tDataQualityRulesのローカルプロセスとクラウド/ハイブリッドプロセスをご覧ください。

このコンポーネントは、データをカテゴリーとサブカテゴリーに分けて返します。
  • 有効:
    • 有効: 条件と検証式を満たすデータ、または代替の検証式のみを満たすデータ。
    • [Not applicable (NA)] (該当なし): データが条件を満たしていません。このデータにはルールを適用できません。

    そのようなデータは[Main] (メイン)フローに従います。

  • 無効:
    • [Invalid] (無効): データは条件を満たすものの、検証式は満たしていません。
    • [Not executable (NE)] (実行不可): データでルールを実行できません。

    そのようなデータは[Reject] (リジェクト)フローに従います。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。

tDataQualityRulesコンポーネントを使用するためには、Qlik Talend Cloud Enterprise Editionが必要です。

tDataQualityRulesは以下をサポートします。
  • ローカルモードの場合はApache Spark 3.0以降です。
  • Apache Spark 3.1または 3.2を伴うCloudera Data Engineeringサービス

tDataQualityRulesの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtDataQualityRulesを設定するために使われます。

標準のtDataQualityRulesコンポーネントは、データクオリティファミリーに属しています。

基本設定

[Output schema] (出力スキーマ)および[Edit schema] (スキーマを編集)

スキーマは行の説明のことで、処理された後に次のコンポーネントに渡されるフィールド(カラム)の数を定義するものです。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

[Schema] (スキーマ)のタイプを選択します。
  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

[View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

[Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

[Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

サポートされているタイプは、Boolean、Date、Double、Dynamic、Float、Integer、Long、Short、Stringです。

アプリケーション データクオリティルールの取得元としたいアプリケーションを選択します。

このオプションはTalend Studio 8.0 R2024-01以降で利用できます。

[URL]
情報メモ重要: ルールを取得するためには、[Rules - View] (ルール - 表示)権限が必要です。詳細は、使用しているアプリの事前定義済みユーザーロールをご覧ください。
[Application] (アプリケーション)ドロップダウンリストから選択されたアプリのURLを入力します。選択したアプリとURLが一致しない場合、ジョブが失敗することがあります。サポートされているURLは次のとおりです。
  • Talend Cloud Data Stewardship、またはTalend Data Stewardship 8.0 R2022-07以降のハイブリッドバージョン
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tds.<env>.cloud.talend.com/rulerepository
    https://tds.<env>.cloud.talend.com/rulerepository/
    https://tds.<env>.cloud.talend.com (Only for Talend Cloud Data Stewardship)
    https://tds.<env>.cloud.talend.com/ (Only for Talend Cloud Data Stewardship)

    ハイブリッドバージョンを使う場合は、IPアドレスかホスト名でURLを使用できます:

    https://ip:19999/rulerepository/api/v1
    https://ip:19999/rulerepository/api/v1/
    https://ip:19999/rulerepository
    https://ip:19999/rulerepository/
    https://hostname:19999/rulerepository/api/v1
    https://hostname:19999/rulerepository/api/v1/         
    https://hostname:19999/rulerepository
    https://hostname:19999/rulerepository/
  • Talend Cloud Data Inventory (Talend Studio 8.0 R2023-06以降):
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tdc.<env>.cloud.talend.com/rulerepository
    https://tdc.<env>.cloud.talend.com/rulerepository/
    https://tdc.<env>.cloud.talend.com
    https://tdc.<env>.cloud.talend.com/ 
<env>の部分にはお使いのクラウドリージョンが入ります。Talend Cloudのアプリケーションにアクセスをご覧ください。
トークン パーソナルアクセストークンを入力します。パーソナルアクセストークンを生成する場合は、https://help.talend.com/r/ja-JP/Cloud/management-console-user-guide/cloud-access-tokenをご覧ください。
[DQ rule library timestamp] (DQルールライブラリーのタイムスタンプ) URLとトークンを入力したら、[Refresh] (更新)をクリックします。

URLとトークンが正しければ、データクオリティルールはyyyy-MM-dd hh:mm:ss (library_number)という形式でTalend Studioに取得されます。

クラウドやハイブリッドバージョンでデータクオリティルールをアップデートする場合は、[Refresh] (更新)をクリックして最新バージョンを取得します。

[Configure DQ rules] (DQルールを設定) ルールの変数を入力データに関連付けます。
ルールはライブラリーから取得されます。
  • [DQ Rule] (DQルール): ルールを選択します。
  • [Rule variable] (ルール変数): ルールの変数は自動的に取得されます。
  • [Input column] (入力カラム): 変数を置き換える必要がある値が含まれているカラムを選択します。
  • [Dynamic column selection] (ダイナミックカラムの選択): ダイナミックカラムを入力カラムとして選択した場合は、そのカラム名を二重引用符で囲んでカラム名を入力します。
    情報メモ制約事項: ルール変数を1つのカラムにのみ関連付けることができます。[Dynamic column selection] (ダイナミックカラムの選択)にカラムを1つだけ入力してください。
利用できるルールや入力カラムがない場合は、次の点をご確認ください。
  • [DQ rule library timestamp] (DQルールライブラリーのタイムスタンプ)でデータクオリティルールが取得されたこと
  • 入力スキーマが正しいこと

Talend Studioのデータ型は、Talend Cloud Data StewardshipやハイブリッドTalend Data Stewardshipのデータ型の一部に関連付けることができます。下のデータ型を関連付けをご覧ください。

他のルールを適用する場合は、をクリックします。

データ型を関連付け

関連付けることができるデータ型は次のとおりです。
アプリからのルール変数 * 入力カラム(Talend Studioより)
Number Double、Float、Integer、Long、Short、String
Boolean Boolean
Text 文字列
Date Date
アプリケーションでサポートされる任意のデータ型 ダイナミック
* 次のURLを入力できます。
  • Talend Cloud Data Stewardship
  • Talend Data Stewardship 8.0 R2022-07以降のハイブリッドバージョン
  • Talend Cloud Data Inventory (Talend Studio 8.0 R2023-06以降)

詳細設定

[tStatCatcher statistics] (tStatCatcher統計)

このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。