リードのリストを複製して2つの出力フローを個別に処理

始める前に
-
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、データベース接続を使用します。
-
ソースデータを保管するデータセットが追加済みであること。
filter-python-customers.zipファイルをダウンロードして抽出します。リードデータ(ID、名前、収益など)が含まれています。
-
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、Amazon S3に保存されたファイルとHDFSに保存されたファイルを使用します。
手順
タスクの結果
パイプラインは実行中となり、レコードは複製されてフィルタリングされ、出力フローは指定のターゲットシステムに送信されます。