Talendジョブでバージョンを使用
Talend Studioでは、プレパレーションのバージョンをデータ統合またはビッグデータジョブ内で使用できます。
Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用できます。
情報メモ注: でtDataprepRunTalend Cloud Data Preparationコンポーネントを使用するには、Talend Studioバージョン7.1以上が必要です。
プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持できます。
以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。
このプレパレーションは、基本的な顧客情報(名前、電話番号、メールアドレスなど)が含まれているデータセットに作成されたものです。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。
プレパレーション中に2つのバージョン(1つは最初の2つのステップの後に、もう1つは3番目のステップの後に)が作成されました。
始める前に
- 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みです。この場合、既存のプレパレーションはcontacts cleansingです。
- Salesforceからインポートしたデータのスキーマは、最初にプレパレーションの作成に使ったデータセットと同じスキーマであることが必要です。
手順
タスクの結果
選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。