Google Cloud Storageに保存されている統計を処理してデータをAmazon S3にアップロード

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

始める前に

このシナリオを再現する場合は、 gcstorage_s3_nyc_stats.xlsx ファイルをダウンロードします。このファイルはニューヨーク市のオープンデータセットであるnyc-park-crime-stats-q4-2019.xlsxから抽出されたもので、誰でも利用できるように公開されています。

手順

[Connections] (接続) > [Add connection] (接続を追加)をクリックします。
開いたパネルで、作成する接続のタイプを選択します。
例
Google Cloud Storage
[Engine] (エンジン)リストでエンジンを選択します。
情報メモ注:
- データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
- Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
- 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
作成する接続のタイプを選択します。
ここでは、Google Cloud Storageを選択します。
Google Cloud Storageプロパティの説明に従って、Google CloudアカウントにアクセスするためのJSON認証情報を入力し、接続にチェックを入れて[Add dataset] (データセットを追加)をクリックします。
[Add a new dataset] (新しいデータセットを追加)パネルで、データセットに NYC park crime stats crimeという名前を付けます。
必要なプロパティ(バケット名、ファイル名、形式など)を入力してGoogle Cloud Storageバケットにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
[Validate] (検証)をクリックしてデータセットを保存します。
同じようにして、パイプライン内でデスティネーションとして使用されるS3接続とデータセットを追加します。
[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
[ADD SOURCE] (ソースを追加)をクリックすると、ソースデータを選択できるパネルが開きます。ここでは、Google Cloud Storageバケットに保存されている、ニューヨークパークにおける犯罪のパブリックデータセットを選択します。
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
をクリックし、パイプラインにMathプロセッサーを追加します。設定パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
calculate acre square root
プロセッサーを設定します。
1. SIZE__ACRES_フィールドの平方根を計算する場合は、[Function name] (機能名)リストでSquare rootを選択します。
2. [Fields to process] (処理するフィールド)リストで.SIZE__ACRES_を選択します。
3. [Save] (保存)をクリックして設定を保存します。
  
  オプションとして、プロセッサーのプレビューに注目し、計算操作後のデータを表示させます。
をクリックし、パイプラインにFilterプロセッサーを追加します。設定パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
filter on robberies
プロセッサーを設定します。
1. データセットにリスト表示されている犯罪のうち強盗カテゴリーのみが保持されるよう、新しいエレメントを追加し、[Input] (入力)リストで.ROBBERYを選択します。
2. [Optionally select a function to apply] (適用する関数をオプションとして選択)リストで[None] (なし)を選択します。
3. [Operator] (オペレーター)リストで>=を選択します。
4. 強盗事件が少なくとも1つ含まれているデータをフィルタリングする場合は、[Value] (値)フィールドに1と入力します。
5. [Save] (保存)をクリックして設定を保存します。
オプションとして、Filterプロセッサーのプレビューを表示し、フィルタリング操作後のデータサンプルを確認します。
例
[ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保存するS3データセットを選択します。
必要であれば名前を変更します。
デスティネーションの[Configuration] (設定)タブで[Overwrite] (上書き)オプションを有効にし、処理済みデータが含まれるファイルでS3にある既存のファイルを上書きした後、[Save] (保存)をクリックして設定が保存されるようにします。
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、出力フローは指定したAmazon S3バケットに送信されます。

出力ファイルをダウンロードすると、犯罪データが処理され、強盗事件が分離されていることがわかります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

Google Cloud Storageに保存されている統計を処理してデータをAmazon S3にアップロード

始める前に

手順

例

例

例

例

タスクの結果

このページは役に立ちましたか?