メイン コンテンツをスキップする 補完的コンテンツへスキップ

収穫作物に関する文字列を処理

S3ソース、2つのStringsプロセッサー、S3デスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、Amazon S3接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    string-crops.csvファイルをダウンロードします。マリで収穫された作物に関するデータ(作物の種類、生産額、収穫面積など)を持つセットが含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、同じS3バケットに保存されているデータセットを使用します。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Process strings about harvested crops
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は2005年のマリにおける収穫作物に関するデータ)を選択できます。

    作物レコードを持つデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにStringsプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    change crop types to upper case
  7. [Configuration] (設定)エリアで以下の操作を行います。
    1. [Function name] (ファンクション名)リストで[Change to upper case] (大文字に変換)を選択します。
    2. 作物タイプの値を大文字に変更する場合は、[Column to process] (処理するフィールド)リストで.crop_parentを選択します。
  8. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。

    作物レコードの大文字と小文字を大文字に変更した後のStringsプロセッサーのプレビュー。
  9. +をクリックし、パイプラインにStringsプロセッサーをもう1つ追加します。設定パネルが開きます。
  10. プロセッサーに意味のある名前を付けます。

    match crop IDs with IDs
  11. [Configuration] (設定)エリアで以下の操作を行います。
    1. [Function name] (ファンクション名)リストで[Match similar text] (同様のテキストに一致)を選択します。
    2. [Fields to process] (処理するフィールド)リストで.cropを選択します。
    3. 作物名IDとレコードIDを比較する場合は、[Use with] (次を使用)リストで[Other column] (その他のカラム)を、[Column] (カラム)リストで.idをそれぞれ選択します。
    4. 2つのフィールド値を完全一致させる場合は、ファジー度フィールドに0を入力します。
  12. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。新しいカラムであるcrop_matchesを見ると、完全一致にはtrue値が、一致しないIDにはfalse値があることがわかります。

    IDに基づいて作物レコードを比較した後のStringsプロセッサーのプレビュー。
  13. [ADD DESTINATION] (デスティネーションを追加)をクリックし、処理済みデータを保持するデータセットを選択します。
    必要であれば名前を変更します。
  14. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  15. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、選択された文字列は処理され、出力フローは指定したS3バケットに送信されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。