メイン コンテンツをスキップする 補完的コンテンツへスキップ

ローカルファイルのデータをフィルタリングして2つのAmazon S3出力に分割

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

以下の手順で作成されるパイプラインの例。

始める前に

Step
  • このシナリオを再現する場合は、 local_file-to_s3.zip ファイルをダウンロードして抽出します。このファイルには、ユーザーによる購入項目が、登録、購入価格、生年月日といったデータと共に含まれています。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    ローカル接続
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは[Local connection] (ローカル接続)を選択します。
  5. 接続のプロパティに入力し、[ADD DATASET] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、自分のデータセットにuser purchasesという名前を付けます。
  7. [Upload] (アップロード)アイコンをクリックし、ローカルマシンにあるlocal_file-to_s3.csvファイルをご参照選択します。次に、[Auto detect] (自動検出)をクリックしてファイル形式情報が自動的に入力されるようにした後、[View sample] (サンプルを表示)をクリックしてデータサンプルのプレビューを表示させます。
    新しいローカルデータセットの設定。
  8. [Validate] (検証)をクリックしてデータセットを保存します。
  9. 同じ方法で、パイプラインでデスティネーションとして使用するAmazon S3接続とS3出力を追加します。 Amazon S3プロパティの説明に従って、接続のプロパティを入力します。
    新しいAmazon S3接続の設定。
  10. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  11. パイプラインに意味のある名前を付けます。

    From local file to S3 - Filter by age
  12. [ADD SOURCE] (ソースを追加)をクリックし、パネルが開いたら、user purchasesというソースデータセットを選択します。
  13. [Add Processor] (プロセッサーを追加)をクリックしてFilterプロセッサーをパイプラインに追加し、ユーザーデータをフィルタリングして意味がある名前を付けられるようにします。設定パネルが開きます。
  14. プロセッサーに意味のある名前を付けます。

    filter on registered users
  15. [Filters] (フィルター)エリアで次の操作を行います。
    1. ユーザー登録をフィルタリング基準にする場合は、[Input] (入力)リストで.registeredを選択します。
    2. データのフィルタリング時に関数を適用したくない場合は、[Optionally select a function to apply] (適用する関数をオプションとして選択)リストで[None] (なし)を選択します。
    3. 登録ユーザーをフィルタリングする場合は、[Operator] (オペレーター)リストで==を選択し、[Value] (値)フィールドにTRUEと入力します。
  16. [Save] (保存)をクリックして設定を保存します。
  17. [Add Processor] (プロセッサーを追加)をクリックしてDateプロセッサーをパイプラインに追加し、生年月日からユーザーの年齢を計算できるようにします。設定パネルが開きます。
  18. プロセッサーに意味のある名前を付けます。

    calculate user age
  19. プロセッサーを設定します。
    1. 生年月日からユーザーの年齢を計算する場合は、[Function name] (関数名)リストでCalculate time sinceを選択します。
    2. [Fields to process] (処理するフィールド)フィールドで.date_of_birthを選択します。
    3. 新しいフィールドに結果を表示させたい場合は、[Create new column] (新しいカラムを作成)オプションを有効化して、フィールドにageという名前を付けます。
    4. 現在の日付(月/日/年の形式)までの年数を計算する場合は、[Time unit] (時間単位)リストで[Years] (年)を、[Until] (期間)フィールドで[Now] (現在)をそれぞれ選択し、[Set the date pattern] (日付パターンを設定]フィールドにMM/dd/yyyyと入力します。
  20. [Save] (保存)をクリックして設定を保存します。
  21. (オプション)プロセッサーのプレビューに注目し、計算された年齢を確認します。
    [Data Preview] (データプレビュー)出力に、年齢の新しいカラムが表示されている状態。
  22. [Add Processor] (プロセッサーを追加)をクリックし、パイプラインにFilterプロセッサーをもう1つ追加します。設定パネルが開きます。
  23. プロセッサーに意味のある名前を付けます。

    filter on users aged 60+
  24. [Filters] (フィルター)エリアで次の操作を行います。
    1. ユーザーの年齢をフィルタリング基準にしたい場合は、[Input] (入力)リストで[.age]を選択します。
    2. データのフィルタリング時に関数を適用したくない場合は、[Optionally select a function to apply] (適用する関数をオプションとして選択)リストで[None] (なし)を選択します。
    3. 60歳以上のユーザーをフィルタリングする場合は、[Operator] (オペレーター)リストで>=を選択し、[Value] (値)フィールドに60と入力します。
  25. [Save] (保存)をクリックして設定を保存します。
  26. パイプラインで[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックするとパネルが開きます。ここで、自分のフィルター(S3)に一致する出力データの保存先となる最初のデータセットを選択できます。
  27. このデスティネーションに意味のある名前(older usersなど)を付けます。
  28. [Save] (保存)をクリックして設定を保存します。
  29. Filterプロセッサーで[Add Datastream] (データストリームを追加)をクリックすると、パネルが開きます。ここで、自分のフィルター(S3)に一致しない出力データの保存先となる2番目のデータセットを選択できます。
  30. このデスティネーションに意味のある名前(other usersなど)を付けます。
  31. (オプション) Filterプロセッサーに注目し、60歳以上の全登録ユーザーをフィルタリングした後のデータをプレビューします。
    [Output data] (出力データ)プレビューで、2件のレコードが基準にマッチしています。
  32. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  33. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、ローカルファイルに保存されていたユーザー情報がフィルタリングされ、ユーザーの年齢が計算されて、定義したS3バケットに出力フローが送信されます。このようにさまざまな出力を準備すれば、ターゲットが異なるマーケティングキャンペーンなどに使用できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。