メディケア受益者IDのマスキング
tPatternMaskingコンポーネントを使用して、メディケア受益者ID (MBI)など、個人を特定できる情報を一貫した方法で実際的な値に置き換えることができます。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
MBIは、米国連邦医療保健制度の受益者を一意識別します。この識別子は、次のパターンに従って、11文字で構成されています(ダッシュは文字数に含まれません):
- 1から9までの数字。
- AからZまでの文字(S、L、O、I、B、Zを除く)。
- 数字、またはAからZまでの文字(S、L、O、I、B、Zを除く)。
- 0から9までの数字。
- AからZまでの文字(S、L、O、I、B、Zを除く)。
- 数字、またはAからZまでの文字(S、L、O、I、B、Zを除く)。
- 0から9までの数字。
- AからZまでの文字(S、L、O、I、B、Zを除く)。
- AからZまでの文字(S、L、O、I、B、Zを除く)。
- 0から9までの数字。
- 0から9までの数字。
たとえば、1EG4-TE5-MK73は有効なMBIです。
このシナリオでは、次のコンポーネントを使用するジョブについて説明します。
- tFixedFlowInputコンポーネントは、MBIを生成します。
-
tPatternMaskingコンポーネントは、元のMBIを、名前付きの値のセットからのランダムな数字または文字、または指定した範囲からのランダムな数字に置き換えます。
- tLogRowコンポーネントは、代替データセットを出力します。
ジョブを設定
手順
- tFixedFlowInputコンポーネント、tPatternMaskingコンポーネント、tLogRowコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。
- リンクを使って、3つのコンポーネントを接続します。
入力コンポーネントを設定
手順
マスキングオペレーションを設定
alpha_values.zipファイルには、許可されるアルファベットの値が含まれています: AからZまでの文字(S、L、O、I、B、Zを除く)。alphanum_values.zipファイルには、許可されるアルファベットの値が含まれています:alpha_values.zipの値と数字。
始める前に
- alpha_values.zipとalphanum_values.zipをダウンロードして解凍しました。
- alpha_values.csvファイルとalphanum_values.csvファイルにコンテキスト変数を定義済みであること。詳細は、ジョブまたはルートのコンテキスト変数を定義をご覧ください。
手順
出力コンポーネントの設定とジョブの実行
手順
タスクの結果
tPatternMaskingコンポーネントは、入力データからの値を変更し、元のレコードと代替レコードを出力します。
入力データは変えられていますが、出力データは一貫性のあるリアルなデータに見えます。代替データは、本番環境以外では使用できます。
最初のレコードは、1EG4-T-E5-MK73が元のレコードであるため、trueとしてラベル付けされます。2番目のレコードは、7H24-E-K4-HY91が代替レコードであるため、falseとしてラベル付けされます。
- tPatternMaskingプロパティの定義に従い、最初の文字は1から9までの数字に置換されます。
- 2、5、8、9番目の文字は、列挙ファイルで定義された許可値のリストから取った文字に置換されます。
- 3番目と6番目の文字は、列挙ファイルで定義された許可される英数字の値の1つに置換されます。
- tPatternMaskingプロパティの定義に従い、4番目と7番目の文字は、0から9の範囲の数字に置換されます。
- tPatternMaskingプロパティの定義に従い、最後の2文字は、0から99の範囲の数字に置換されます。
- 入力ではダッシュが区切りとして使用され、出力でも変わりません。
tPatternMaskingコンポーネントは、0EF6-T-F4-AC44にnullを出力します。この値が無効なためです: 最初の文字0が指定範囲("1,9")にありません。