メイン コンテンツをスキップする 補完的コンテンツへスキップ

リードのリストを複製して2つの出力フローを個別に処理

ソース、Replicateプロセッサー、Filterプロセッサー、2つのテストデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、データベース接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    filter-python-customers.zipファイルをダウンロードして抽出します。リードデータ(ID、名前、収益など)が含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、Amazon S3に保存されたファイルとHDFSに保存されたファイルを使用します。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    リードの複製および処理
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は顧客のリスト)を選択できます。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにReplicateプロセッサーを追加します。フローが複製され、設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    replicate leads
  7. パイプライン上部の[ADD DESTINATION] (デスティネーションを追加)項目をクリックしてパネルを開くと、データをクラウドに保持する[Dataset] (データセット)を選択できます(Amazon S3)。
  8. デスティネーションに意味のある名前を付けます。

    store in cloud
  9. パイプラインの下にある[ADD DESTINATION] (デスティネーションを追加)項目の横にある+をクリックし、Filterプロセッサーを追加します。
  10. プロセッサーに意味のある名前を付けます。

    filter on lead revenues
  11. [Filters] (フィルター)エリアで次の操作を行います。
    1. [Input] (入力)リストで.Revenueを選択し、この値に基づいてリードをフィルタリングします。
    2. レコードのフィルタリング時にファンクションを適用したくないので、[Optionally select a function to apply] (適用するファンクションをオプションとして選択)リストで[None] (なし)を選択します。
    3. 70000ドル超の売上のリードをフィルタリングする場合は、[Operator] (オペレーター)リストで>=を選択し、[Value] (値)リストに70000と入力します。
  12. [Save] (保存)をクリックして設定を保存します。
  13. (オプション) Filterプロセッサープレビューを表示し、フィルタリング操作後のデータを確認します。

    70000ドルを超える収益レコードをフィルタリングした後のFilterプロセッサーのプレビュー。
  14. パイプライン下部にある[ADD DESTINATION] (デスティネーションを追加)項目をクリックしてパネルを開くと、データをオンプレミス(HDFS)に保持するデータセットを選択し、意味のある名前を付けることができます。

    store on premises
  15. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  16. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、レコードは複製されてフィルタリングされ、出力フローは指定のターゲットシステムに送信されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。