メイン コンテンツをスキップする 補完的コンテンツへスキップ

フランスの航空会社とフランスの売上げを結合

3つのソースデータセットと2つのJoinプロセッサーが含まれている複雑なパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、テスト接続とAmazon S3接続です。

  • ソースデータを保管するデータセットが追加済みであること。

    ここで、左側にある最初のデータセットには航空機のデータ(オペレーター、緯度、経度など)が、右側にある最初のデータセットにはソースデータ(オペレーター、国)と結合される航空会社のデータがそれぞれ格納されています。

    左側にある2番目のデータセットには、売上げデータ(国、地域、出荷日など)が、右側にある2番目のデータセットには、最初の結合操作の結果がそれぞれ格納されています。結合するデータは国データです。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、テスト接続を使用します。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Join air operator and country data
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、左側のデータ(この場合は航空機のリスト)を選択できます。

    航空機に関するデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにJoinプロセッサーを追加します。キャンバスに別のプレースホルダーソースが表示されます。
  6. [ADD SOURCE] (ソースを追加)をクリックし、右側のデータセット(この場合はオペレーターと国のデータを持つ航空会社のリスト)を選択します。

    航空会社に関するデータサンプルのプレビュー。
  7. Joinプロセッサーの設定パネルを開きます。
  8. プロセッサーに意味のある名前を付けます。

    join operators
  9. 左側のデータセットと右側のデータセットで一致するレコードを結果セットに表示させる場合は、[Join type] (結合タイプ)リストで[Inner join] (内部結合)を選択します。
  10. [Conditions] (条件)エリアで、次の操作を行います。
    1. 左側のデータセットで比較する既存レコードへのパスを選択するか、[Left key] (左キー)リストに(この場合は.Opと)入力します。
    2. 右側のデータセットで比較する既存レコードへのパスを選択するか、[Right key] (右キー)リストに(この場合は.Opと)入力します。

      このエリアではavpath構文を使用できます。

  11. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューを表示し、結合前のデータと結合後のデータを比較します。

    内部結合を適用した後のJoinプロセッサーのプレビュー。
  12. +をクリックし、パイプラインにFilterプロセッサーを追加します。設定パネルが開きます。
  13. プロセッサーに意味のある名前を付けます。

    filter on FR operators
  14. [Filters] (フィルター)エリアで次の操作を行います。
    1. [Input] (入力)リストで.Countryを選択し、この値に基づいてオペレーターをフィルタリングします。
    2. レコードのフィルタリングでファンクションを適用しない場合は、[Apply a function first] (最初にファンクションを適用)リストでNoneを選択します。
    3. [Operator] (オペレーター)リストで==を選択して[Value] (値)リスト内にFranceと入力し、フランスからのオペレーターを持つユーザーをフィルタリングします。
  15. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューを表示し、フィルタリング前のデータとフィルタリング後のデータを比較します。

    フランスのオペレーターにフィルタリングを適用した後のFilterプロセッサーのプレビュー。
  16. +をクリックし、パイプラインにJoinプロセッサーを追加します。キャンバスに別のプレースホルダーソースが表示されます。
  17. [ADD SOURCE] (ソースを追加)をクリックし、既存のデータセットと結合するデータセット(この場合は出荷データを持つ売上げのリスト)を選択します。

    リージョンの売上げに関するデータサンプルのプレビュー。
  18. Joinプロセッサーの設定パネルを開きます。
  19. プロセッサーに意味のある名前を付けます。

    join countries
  20. 左側のデータセットと右側のデータセットで一致するレコードを結果セットに表示させる場合は、[Join type] (結合タイプ)リストで[Inner join] (内部結合)を選択します。
  21. [Conditions] (条件)エリアで、次の操作を行います。
    1. 左側のデータセットで比較する既存レコードへのパスを選択するか、[Left key] (左キー)リストに(この場合は.Countryと)入力します。
    2. 右側のデータセットで比較する既存レコードへのパスを選択するか、[Right key] (右キー)リストに(この場合は.Countryと)入力します。

      このエリアではavpath構文を使用できます。

  22. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューを表示し、結合前のデータと結合後のデータを比較します。

    内部結合を適用した後のJoinプロセッサーのプレビュー。
  23. Joinプロセッサーの横にある[ADD DESTINATION] (デスティネーションを追加)項目をクリックし、結合されたデータを保持するデータセットを選択します。
    ここでは、[Log records to STDOUT] (レコードをSTDOUTに記録)オプションを有効にしてテスト出力データセットが追加されています。
  24. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  25. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、生成された出力にフランスのオペレーターデータがフランスの売上げデータが結合されます。結合操作の後に生成されたレコードはログで確認できます。
結合操作後に生成されたレコードを示すパイプラインログ。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。