メイン コンテンツをスキップする 補完的コンテンツへスキップ

Talendジョブでバージョンを使用

Talend Studioでは、プレパレーションのバージョンをデータ統合またはビッグデータジョブ内で使用できます。

Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用できます。

情報メモ注: tDataprepRunTalend Cloud Data Preparationコンポーネントを使用するには、Talend Studioバージョン7.1以上が必要です。

プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持できます。

以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。

Talend Studioにジョブが表示されている状態。

このプレパレーションは、基本的な顧客情報(名前、電話番号、メールアドレスなど)が含まれているデータセットに作成されたものです。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。

プレパレーションに既に行われたクレンジングステップ。

プレパレーション中に2つのバージョン(1つは最初の2つのステップの後に、もう1つは3番目のステップの後に)が作成されました。

バージョンを示した図。

始める前に

  • 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みです。この場合、既存のプレパレーションはcontacts cleansingです。
  • Salesforceからインポートしたデータのスキーマは、最初にプレパレーションの作成に使ったデータセットと同じスキーマであることが必要です。

手順

  1. 新しい標準ジョブまたはSparkジョブをTalend Studioで作成します。
  2. Talend StudioのデザインワークスペースでtSalesforceInputtDataprepRun、tRedshiftOutputを追加し、2つの[Row] (行) > [Main] (メイン)リンクを使ってリンクします。
  3. tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。

    tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させてください。

  4. tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
    Talend StudioでのtDataprepRunコンポーネントのプロパティ。
  5. Talend Cloud Data Preparationの接続情報を入力します。
  6. [Choose an existing preparation] (既存のプレパレーションを選択)をクリックして、Talend Cloud Data Preparationで使用可能なプレパレーションのリストを表示します。
    Talend Studioで[既存のプレパレーションを選択]ダイアログボックスが開かれている状態。
  7. 適用するプレパレーションのバージョンを含んだcontacts cleansingの前のチェックボックスをオンにして、[OK]をクリックします。
  8. [choose a version] (バージョンを選択)をクリックして、プレパレーションの使用可能なバージョンのリストからバージョンを選択します。この場合、バージョン1を選択します。
    Talend Studioで[バージョンを設定]ダイアログボックスが開かれている状態。

    ジョブでは、選択されたプレパレーションの現在の状態がデフォルトで使用されます。共同作業の状況で、一定のバージョンの代わりに現在の状態を使用すると、知らないうちに誰かがプレパレーションに変更を加える可能性があります。その結果、ジョブの結果がどうなるのか正確に把握できなくなります。このような理由から、ジョブでバージョンを使用した方が安全です。

  9. [Fetch Schema] (スキーマを取得)をクリックして、contacts cleansingのスキーマを取得します。
  10. tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  11. ジョブを保存し、F6を押して実行します。

タスクの結果

選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。