メイン コンテンツをスキップする 補完的コンテンツへスキップ

顧客情報を集計して購入を計算

テストソース、Aggregateプロセッサー、HDFSデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

  • ソースデータを保管するデータセットが追加済みであること。

    aggregate-customers.zipファイルをダウンロードして抽出します。ID、製品情報(書名、価格ほか)など、顧客データの階層リストが含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、ファイルはHDFSに保存されているものとします。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Aggregate Customer Data to Calculate Purchases
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は書籍の購入に関する階層顧客データのリスト)を選択できます。

    書籍購入に関するデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにAggregateプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    calculate customer purchases
  7. [Group by] (グループ基準)エリアで、集計セットに使用するフィールドを選択します。ここでは.customerIdです。
  8. [Operations] (操作)エリアで次の操作を行います。
    1. [Field path] (フィールドパス)リストで.customerId[Operation] (操作)リストで[Count] (カウント)を選択します。
    2. 生成されたフィールド([Output field name] (出力フィールド名))に、たとえばnbOfPurchasesという名前を付けます。
    3. +記号をクリックして新しいエレメントを追加し、[Field path] (フィールドパス)リストで.product.priceを、[Operation] (操作)リストで[Sum] (合計)を選択します。
    4. 生成されたフィールドに、たとえばtotalPriceという名前を付けます。
    5. +記号をクリックして新しいエレメントを追加し、[Field path] (フィールドパス)リストで.product.nameを、[Operation] (操作)リストで[List] (リスト)を選択します。
    6. 生成されたフィールドに、たとえばbooksという名前を付けます。
  9. [Save] (保存)をクリックして設定を保存します。

    集計操作後に計算されたデータ、つまり顧客ごとの書籍数および支出金額をプレビューできます。

    集計処理を適用した後のプロセッサーのプレビュー。
  10. パイプラインで[ADD DESTINATION] (デスティネーションを追加)をクリックしてパネルを開きます。ここでは、出力データ(HDFS)を保持する[Dataset] (データセット)を選択できます。

    必要であれば名前を変更します。

  11. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  12. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、購入は顧客ごとに集計され、出力フローは指定のターゲットシステムに送信されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。