メイン コンテンツをスキップする 補完的コンテンツへスキップ

Google Cloud Storageに保存されている統計を処理してデータをAmazon S3にアップロード

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

以下の手順で作成されるパイプラインの例。

始める前に

  • このシナリオを再現する場合は、 gcstorage_s3_nyc_stats.xlsx ファイルをダウンロードします。このファイルはニューヨーク市のオープンデータセットであるnyc-park-crime-stats-q4-2019.xlsxから抽出されたもので、誰でも利用できるように公開されています。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    Google Cloud Storage
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは、Google Cloud Storageを選択します。
  5. Google Cloud Storageプロパティの説明に従って、Google CloudアカウントにアクセスするためのJSON認証情報を入力し、接続にチェックを入れて[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに NYC park crime stats crimeという名前を付けます。
  7. 必要なプロパティ(バケット名、ファイル名、形式など)を入力してGoogle Cloud Storageバケットにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
    Azure Data Lake Storage Gen2データセットの設定。
  8. [Validate] (検証)をクリックしてデータセットを保存します。
  9. 同じようにして、パイプライン内でデスティネーションとして使用されるS3接続とデータセットを追加します。
  10. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  11. [ADD SOURCE] (ソースを追加)をクリックすると、ソースデータを選択できるパネルが開きます。ここでは、Google Cloud Storageバケットに保存されている、ニューヨークパークにおける犯罪のパブリックデータセットを選択します。
  12. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  13. [Add Processor] (プロセッサーを追加)をクリックし、パイプラインにMathプロセッサーを追加します。設定パネルが開きます。
  14. プロセッサーに意味のある名前を付けます。

    calculate acre square root
  15. プロセッサーを設定します。
    1. SIZE__ACRES_フィールドの平方根を計算する場合は、[Function name] (機能名)リストでSquare rootを選択します。
    2. [Fields to process] (処理するフィールド)リストで.SIZE__ACRES_を選択します。
    3. [Save] (保存)をクリックして設定を保存します。
      オプションとして、プロセッサーのプレビューに注目し、計算操作後のデータを表示させます。
      [Output data] (出力データ)プレビューで、プロセッサーがエーカーの大きさの平方根を計算しています。
  16. [Add Processor] (プロセッサーを追加)をクリックし、パイプラインにFilterプロセッサーを追加します。設定パネルが開きます。
  17. プロセッサーに意味のある名前を付けます。

    filter on robberies
  18. プロセッサーを設定します。
    1. データセットにリスト表示されている犯罪のうち強盗カテゴリーのみが保持されるよう、新しいエレメントを追加し、[Input] (入力)リストで.ROBBERYを選択します。
    2. [Optionally select a function to apply] (適用する関数をオプションとして選択)リストで[None] (なし)を選択します。
    3. [Operator] (オペレーター)リストで>=を選択します。
    4. 強盗事件が少なくとも1つ含まれているデータをフィルタリングする場合は、[Value] (値)フィールドに1と入力します。
    5. [Save] (保存)をクリックして設定を保存します。
  19. オプションとして、Filterプロセッサーのプレビューを表示し、フィルタリング操作後のデータサンプルを確認します。

    [Output data] (出力データ)プレビューで、5件のレコードが基準にマッチしています。
  20. [ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保存するS3データセットを選択します。
    必要であれば名前を変更します。
  21. デスティネーションの[Configuration] (設定)タブで[Overwrite] (上書き)オプションを有効にし、処理済みデータが含まれるファイルでS3にある既存のファイルを上書きした後、[Save] (保存)をクリックして設定が保存されるようにします。
  22. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  23. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、出力フローは指定したAmazon S3バケットに送信されます。
Amazon S3バケットでパイプライン出力フローが強調表示されている状態。
出力ファイルをダウンロードすると、犯罪データが処理され、強盗事件が分離されていることがわかります。
強盗のカラムが含まれている犯罪データのExcelシート。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。