メイン コンテンツをスキップする 補完的コンテンツへスキップ

データ値のシャッフルによる実際の機密データの使用制限

tDataShufflingコンポーネントを使用すると、機密情報をシャッフルして別の行の同じカラムの他の値に置き換えることができ、テストやトレーニングなどの目的で本番データを安全に使用できるようになります。

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

このシナリオのジョブでは、以下のコンポーネントを使用しています:
  • tFixedFlowInputコンポーネントは、クレジットカード番号を含む個人データを生成するために使用します。
  • tDataShufflingは、元の値を同じカラムの別の行の他の値に置き換えます。
  • tFileOutputExcelコンポーネントは、シャッフルされたデータセットを出力します。
tFixedFlowInputコンポーネント、tDataShufflingコンポーネント、tFileOutputExcelコンポーネントを使ったジョブ。

前提条件: 機密性の高いデータの高度な使用制限

データをシャッフルする場合でも、機密データをマスキングすることをお勧めします。また、データをシャッフルする際はカラム間の関係を考慮し、元のデータセットを再構築できないようにすることも忘れるべきではありません。

このシナリオでは、姓と名がグルーピングされていますが、メールアドレスは同じグループに含まれていません。したがって、[email] (メール)カラムは[lname] (姓)カラムと[fname] (名)カラムに関連しません。[email] (メール)カラムには通常、姓と名に関する情報が含まれているため、攻撃者は元のデータを再構築するのに利用できてしまいます。

また、[address1] (住所1)[city] (市区町村)[email] (メール)のカラムはどのグループにも含まれていないため、シャッフルされていません。これにより、たとえばRobert Damstraさんが1619 Stillman Court, Lynnwoodに住んでいることが推測できてしまうことを意味しています。

このシナリオでは、実際の機密データの使用を高度に制限できます:
  • 実際のクレジットカード番号を使用しないようにするため、tDataMaskingコンポーネントを使用してクレジットカード番号をマスキングできます。

  • メールアドレスで顧客が特定されないようにするため、tDataMaskingコンポーネントを使用してメールアドレスをマスキングできます。

  • 実際の住所を読み取られにくくするために、[address1] (住所1)[city] (市区町村)カラムを他のグループに追加できます。

情報メモヒント: tDataShufflingはSparkフレームワークでサポートされているため、ジョブプロパティを編集することで、この標準ジョブをSpark Ba​​tchジョブに変換できます。この方法では、ジョブのコンポーネントの設定を再定義する必要はありません。

ジョブを設定

手順

  1. [Palette] (パレット)からtFixedFlowInputコンポーネント、tDataShufflingコンポーネント、tFileOutputExcelコンポーネントをデザインワークスペースにドロップします。
  2. [Main] (メイン)リンクを使って3つのコンポーネントを接続します。

入力コンポーネントを設定

手順

  1. tFixedFlowInputコンポーネントをダブルクリックし、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
  2. [Edit Schema] (スキーマを編集)ボタンでスキーマを作成します。
    開くダイアログボックスで、[+]ボタンをクリックし、初期入力データを保持するカラム、customer idcredit_cardlnamefnamemiaddress1citystate_provincepostal_codecountryphoneおよびemailを追加します。
  3. [OK]をクリックします。
  4. [Number of rows] (行数)フィールドに、1と入力します。
  5. [Mode] (モード)エリアで、[Use Inline Content] (インラインコンテンツを使用)オプションを選択します。
  6. [Content] (コンテンツ)テーブルで、たとえば以下のように、シャッフルする顧客データを入力します:
    0|4244487462024688|Nowmer|Sheri|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|SheriNowmer@@Tlaxiaco.org
    1|3458687462024688|Nowmer|Alan|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|AlanNowmer@Tlaxiaco.org.org
    2|4639587470586299|Whelply|Derrick|I.|2219 Dewing Avenue|Sooke|BC|17172|Canada|211-555-7669|DerrickWhelply@Sooke.org
    3|2541387475757600|Derry|Jeanne||7640 First Ave.|Issaquah|WA|73980|USA|656-555-2272|JeanneDerry@Issaquah.org
    4|7845987500482201|Spence|Michael|J.|337 Tosca Way|Burnaby|BC|74674|Canada|929-555-7279|MichaelSpence@Burnaby.org
    5|1547887514054179|Gutierrez|Maya||8668 Via Neruda|Novato|CA|57355|$$#|387-555-7172|MayaGutierrez@Novato.org
    6|5469887517782449|Damstra|Robert|F.|1619 Stillman Court|Lynnwood|WA|90792|$$#|922-555-5465|RobertDamstra@Lynnwood.org
    7|54896387521172800|Kanagaki|Rebecca||2860 D Mt. Hood Circle|San Andres|DF|13343|Mexico|515-555-6247|RebeccaKanagaki@Tlaxiaco.org
    8|47859687539744377|Brunner|Kim|H.|6064 Brodia Court|San Andres|DF|12942|Mexico|411-555-6825|Kim@Brunner@San Andresorg
    9|35698487544797658|Blumberg|Brenda|C.|7560 Trees Drive|Sooke|BC|$$|Canada|815-555-3975|BrendaBlumberg@Richmond.org
    10|36521487568712234|Stanz|Darren|M.|1019 Kenwal Rd.|$$#|OR|82017|USA|847-555-5443|DarrenStanz@Lake Oswego.org
    ...

tDataShufflingコンポーネントの設定

手順

  1. tDataShufflingコンポーネントをダブルクリックし、[Basic settings] (基本設定)ビューを表示してコンポーネントのプロパティを定義します。
  2. [Sync columns] (カラムを同期)をクリックし、入力コンポーネントで定義されているスキーマを取得します。
  3. [Shuffling columns] (シャッフルカラム)テーブルで、[+]ボタンをクリックして4行を追加し、以下のようにします:
    • [Column] (カラム)で、データがシャッフルされるカラムを選択し、

    • [Group ID] (グループID)で、各カラムのグループ識別コードを選択します。同じグループ識別コードを持つカラムが一緒にシャッフルされます。

    上記の例では、カラムの2つのグループでシャッフルされます:
    • グループID 1: [credit_card] (クレジットカード)

    • グループID 2:[lname] (姓)[fname] (名)、および[mi] (ミドルネーム)

    ジョブにより[credit_card]カラムのクレジットカード番号は異なる行の値に置き換えられます。また、[lname] (姓)[fname] (名)および[mi] (ミドルネーム)カラムから姓、名、ミドルネームの初期値も保持され、異なる行の値に置き換えられます。
  4. [Advanced settings] (詳細設定)タブをクリックします。
    [Partitioning columns] (パーティショニングカラム)テーブルで、[+]ボタンをクリックして1行追加します。
    ジョブにより、パーティショニングカラムの同じ値を共有する元のデータ行がシャッフルされます。
    上の例では[country] (国)カラムで同じ値が共有されている行にのみシャッフル処理が適用されるようにコンポーネントが設定されています。

出力コンポーネントの設定とジョブの実行

手順

  1. tFileOutputExcelコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
  2. 宛先ファイル名とシート名を設定し、[Define all columns auto size] (全カラムの自動サイズを定義する)チェックボックスをオンにします。
  3. ジョブを保存し、F6を押して実行します。
    tDataShufflingコンポーネントは、選択されたカラムのデータをシャッフルし、結果を出力ファイルに書き込みます。
  4. 出力コンポーネントを右クリックし、[Data Viewer] (データビューアー)を選択して、 シャッフルしたデータを表示します。
    tDataShufflingはシャッフルされたデータを出力します。tDataShufflingは、カラムの最初のグループcredit_card、カラムの2番目のグループlnamefnamemiの値をシャッフルします。
    シャッフル処理は、コンポーネントの詳細設定で定義される[country] (国)カラムで同じ値が共有されている行にのみ適用されます。
    入力データの機密性の高い個人情報はシャッフルされていますが、依然として一貫性のあるリアルなデータになっています。シャッフルされたデータは本番環境以外で使用できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。