フィールドをハッシュしてデータを安全に比較

S3ソース、Data maskingプロセッサー、Field selectorプロセッサー、S3デスティネーションを伴うパイプライン。

始める前に

ソースデータを保管するシステムへの接続が作成済みであること。

ここでは、Amazon S3接続を使用します。
ソースデータを保管するデータセットが追加済みであること。

string-crops.csvファイルをダウンロードします。マリで収穫された作物に関するデータ(作物の種類、生産額、収穫面積など)を持つセットが含まれています。
接続および処理済みデータを保管する関連データセットも作成済みであること。

ここでは、同じS3バケットに保存されているデータセットを使用します。

手順

[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
パイプラインに意味のある名前を付けます。
例
Hash fields to compare data safely
[ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は2005年のマリにおける収穫作物に関するデータ)を選択できます。
例
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
をクリックし、パイプラインにData hashingプロセッサーを追加します。設定パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
hash fields
[Configuration] (設定)エリアで以下の操作を行います。
1. [Function name] (機能名)リストで、[Hash data] (データをハッシュ)を選択します。
2. すべての値を一度にハッシュする場合は、[Fields to process] (処理するフィールド)リストの横にあるアイコンをクリックします。
[Save] (保存)をクリックして設定を保存します。

プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。

これですべてのフィールドがハッシュおよび保護されます。cropフィールドとidフィールドの出力値が同じになっていますが、これは元の値が両方のフィールドで同じであることを表します。
をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
merge identical hashed values
[Selectors] (セレクター)エリアで次の操作を行います。
1. .cropフィールドと.idフィールドが同一で、この両フィールドをマージする場合は、[Input] (入力)リストで.cropを選択し、[Output] (出力)リストにcrop_idと入力します。
2. このフィールドを維持して名前を変更する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストで.crop_parentを選択して、[Output] (出力)リストにcrop_typeと入力します。
3. 出力でこのフィールドを維持する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストで.harvested_areaを選択して、[Output] (出力)リストにharvested_areaと入力します。
4. このフィールドを維持して名前を変更する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストで.value_of_productionを選択して、[Output] (出力)リストにproduction_valueと入力します。
[Save] (保存)をクリックして設定を保存します。

プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。
[ADD DESTINATION] (デスティネーションを追加)をクリックし、処理済みデータを保持するデータセットを選択します。
必要であれば名前を変更します。
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。