複雑なレコードの正規化

S3データセット、Normalizeプロセッサー、S3デスティネーションを伴うパイプライン。

始める前に

ソースデータを保管するシステムへの接続が作成済みであること。

ここでは、Amazon S3接続を使用します。
ソースデータを保管するデータセットが追加済みであること。

ここでは、 ID、名前、国、その他を含む俳優に関する階層データを使用します。
接続および処理済みデータを保管する関連データセットも作成済みであること。

ここでは、Amazon S3に保存されているファイルを使用します。

手順

[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
パイプラインに意味のある名前を付けます。
例
Normalize Actor Records
[ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合はHDFSに保存されている俳優のリスト)を選択できます。
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
をクリックし、パイプラインにNormalizeプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
俳優構造の正規化
[Column to normalize] (正規化するカラム)フィールドにActorsと入力します。このカラムには正規化する階層レコードが含まれているからです。
[Is list] (リスト)オプションと[Discard the trailing empty strings] (後続の空の文字列を破棄)オプションを有効にし、リスト内のデータを([array] (配列)構造から[record] (レコード)構造へ)フラット化して、空のデータを破棄します。
[Save] (保存)をクリックして設定を保存します。
パイプラインで[ADD DESTINATION] (デスティネーションを追加)をクリックしてパネルを開くと、正規化されたデータを保持するデータセットを選択できます。
必要であれば名前を変更します。
(オプション) Normalizeプロセッサーのプレビューを確認し、正規化操作の前後のデータを比較します。
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、レコードは正規化され、出力は指定のターゲットシステムに送信されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

複雑なレコードの正規化

始める前に

手順

例

例

タスクの結果

このページは役に立ちましたか?