Apache Spark BatchのtDataQualityRulesプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataQualityRulesを設定するために使われます。
Spark BatchのtDataQualityRules コンポーネントは、データクオリティファミリーに属しています。
基本設定
[Output schema] (出力スキーマ)および[Edit schema] (スキーマを編集) |
スキーマは行の説明のことで、処理された後に次のコンポーネントに渡されるフィールド(カラム)の数を定義するものです。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 [Schema] (スキーマ)のタイプを選択します。
スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。 サポートされているタイプは、Boolean、Date、Double、Float、Integer、Long、Short、Stringです。 |
アプリケーション | データクオリティルールの取得元としたいアプリケーションを選択します。 このオプションはTalend Studio 8.0 R2024-01以降で利用できます。 |
[URL] |
[Application] (アプリケーション)ドロップダウンリストから選択されたアプリのURLを入力します。選択したアプリとURLが一致しない場合、ジョブが失敗することがあります。サポートされているURLは次のとおりです。
|
トークン | パーソナルアクセストークンを入力します。パーソナルアクセストークンを生成する場合は、https://help.talend.com/r/ja-JP/Cloud/management-console-user-guide/cloud-access-tokenをご覧ください。 |
[DQ rule library timestamp] (DQルールライブラリーのタイムスタンプ) | URLとトークンを入力したら、[Refresh] (更新)をクリックします。 URLとトークンが正しければ、データクオリティルールはyyyy-MM-dd hh:mm:ss (library_number)という形式でTalend Studioに取得されます。 クラウドやハイブリッドバージョンでデータクオリティルールをアップデートする場合は、[Refresh] (更新)をクリックして最新バージョンを取得します。 |
[Configure DQ rules] (DQルールを設定) | ルールの変数を入力データに関連付けます。 ルールはライブラリーから取得されます。
利用できるルールや入力カラムがない場合は、次の点をご確認ください。
Talend Studioのデータ型は、Talend Cloud Data StewardshipやハイブリッドTalend Data Stewardshipのデータ型の一部に関連付けることができます。下のデータ型を関連付けをご覧ください。 他のルールを適用する場合は、をクリックします。 |
データ型を関連付け
アプリからのルール変数 * | 入力カラム(Talend Studioより) |
---|---|
Number | Double、Float、Integer、Long、Short、String |
Boolean | Boolean |
Text | 文字列 |
Date | 日付 |
* 次のURLを入力できます。
|
詳細設定
[tStatCatcher statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |