メイン コンテンツをスキップする 補完的コンテンツへスキップ

メディケア受益者IDのマスキング

tPatternMaskingコンポーネントを使用して、メディケア受益者ID (MBI)など、個人を特定できる情報を一貫した方法で実際的な値に置き換えることができます。

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

MBIは、米国連邦医療保健制度の受益者を一意識別します。この識別子は、次のパターンに従って、11文字で構成されています(ダッシュは文字数に含まれません):
  • 1から9までの数字。
  • AからZまでの文字(S、L、O、I、B、Zを除く)。
  • 数字、またはAからZまでの文字(S、L、O、I、B、Zを除く)。
  • 0から9までの数字。
  • AからZまでの文字(S、L、O、I、B、Zを除く)。
  • 数字、またはAからZまでの文字(S、L、O、I、B、Zを除く)。
  • 0から9までの数字。
  • AからZまでの文字(S、L、O、I、B、Zを除く)。
  • AからZまでの文字(S、L、O、I、B、Zを除く)。
  • 0から9までの数字。
  • 0から9までの数字。

たとえば、1EG4-TE5-MK73は有効なMBIです。

このシナリオでは、次のコンポーネントを使用するジョブについて説明します。
  • tFixedFlowInputコンポーネントは、MBIを生成します。
  • tPatternMaskingコンポーネントは、元のMBIを、名前付きの値のセットからのランダムな数字または文字、または指定した範囲からのランダムな数字に置き換えます。

  • tLogRowコンポーネントは、代替データセットを出力します。
    tFixedFlowInputコンポーネント、tPatternMaskingコンポーネント、tLogRowコンポーネントを使ったジョブ。

ジョブを設定

手順

  1. tFixedFlowInputコンポーネント、tPatternMaskingコンポーネント、tLogRowコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。
  2. [Row] (行) > [Main] (メイン)リンクを使って、3つのコンポーネントを接続します。

入力コンポーネントを設定

手順

  1. tFixedFlowInputコンポーネントをダブルクリックして、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
    tFixedFlowInputコンポーネントの設定。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、ダイアログボックスの[+]ボタンを使用して、文字列タイプのカラムを追加します。
    tFixedFlowInputコンポーネントのスキーマ。
  3. プロンプトが表示されたら、ダイアログボックスで[OK]をクリックして変更をプロパゲートします。
  4. [Number of rows] (行数)フィールドに、1と入力します。
  5. [Mode] (モード)エリアで、[Use Inline Content(delimited file)] (インラインコンテンツを使用: 区切りファイル)オプションを選択します。
  6. [Content] (コンテンツ)テーブルで、マスキングするデータを入力します。

マスキングオペレーションを設定

alpha_values.zipファイルには、許可されるアルファベットの値が含まれています: AからZまでの文字(S、L、O、I、B、Zを除く)。alphanum_values.zipファイルには、許可されるアルファベットの値が含まれています:alpha_values.zipの値と数字。

始める前に

手順

  1. tPatternMaskingコンポーネントをダブルクリックし、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
    tPatternMaskingコンポーネントの設定。
  2. 必要な場合は、[Sync columns] (カラムを同期)タブをクリックし、入力コンポーネントで定義されているスキーマを取得します。
  3. [Edit schema] (スキーマを編集)ボタンをクリックして、スキーマダイアログボックスを開きます。

    tPatternMaskingコンポーネントにより、読み取り専用カラムが出力スキーマに追加されます。

    入力スキーマと出力スキーマの例。

    ORIGINAL_MARKカラムラベルの出力レコード:

    • 元のレコードにはtrueラベルが付きます。
    • 代替レコードにはfalseラベルが付きます。
  4. [Modifications] (変更)テーブルで[+]ボタンをクリックして、データマスキングオペレーションを設定するために10行を追加します。
    最初の9行では、入力値の最初の9行のそれぞれにマスキングオペレーションを定義します。最後の行では、入力値の最後の2文字にマスキングオペレーションを定義します。
    ダッシュは、入力値の区切りとして使用されます。区切りにはマスキングオペレーションを設定する必要がありません。マスクした出力には入力値と同じ区切りが含まれているからです。
  5. 入力に表示される1、4、7番目の文字にマスキングオペレーションを設定するために使われます。
    1. 最初の行の[Column to mask] (マスクするカラム)フィールドをクリックし、マスクするデータが含まれているカラムを選択します。
      このサンプルでは、MBIを選択します。
    2. [Field type] (フィールドタイプ)フィールドから、データが属しているフィールドタイプとして[Interval] (間隔)を選択し、[Values] (値)フィールドに許可される数値の範囲を入力します。
      このサンプルでは、1から9の範囲の数字("1,9")で最初の文字をマスクすることを目指しています。4番目と7番目の文字は、0から9の範囲("0,9")の数字でマスクされます。
    3. 同じ設定を[Modifications] (変更)テーブルの4番目と7番目の行に適用します。
  6. 入力に表示される2、5、8、9番目の文字にマスキングオペレーションを設定するために使われます。
    1. 2番目の行の[Column to mask] (マスクするカラム)フィールドをクリックし、マスクするデータが含まれているカラムを選択します。
    2. [Field type] (フィールドタイプ)フィールドで[Enumeration from file] (ファイルからの列挙)を選択します。
    3. [Values] (値)フィールドをクリックし、[Ctrl] + [Space]を押して、許可される値を含むファイルに変数を選択します。
      このサンプルでは、許可されるアルファベットの値が含まれているファイルに変数を選択します。
    4. 同じ設定を[Modifications] (変更)テーブルの5番目、8番目、9番目の行に適用します。
  7. 入力に表示される3番目と6番目の文字にマスキングオペレーションを設定するために使われます。
    1. 3番目の行の[Column to mask] (マスクするカラム)フィールドをクリックし、マスクするデータが含まれているカラムを選択します。
    2. [Field type] (フィールドタイプ)フィールドで[Enumeration from file] (ファイルからの列挙)を選択します。
    3. [Values] (値)フィールドをクリックし、[Ctrl] + [Space]を押して、許可される値を含むファイルに変数を選択します。
      このサンプルでは、許可される英数字の値が含まれているファイルに変数を選択します。
    4. 同じ設定を[Modifications] (変更)テーブルの6番目の行に適用します。
  8. 入力に表示される最後の2文字にマスキングオペレーションを設定するために使われます。
    1. 最後の行の[Column to mask] (マスクするカラム)フィールドをクリックし、マスクするデータが含まれているカラムを選択します。
    2. [Field type] (フィールドタイプ)フィールドから、データが属しているフィールドタイプとして[Interval] (間隔)を選択し、[Values] (値)フィールドに許可される数値の範囲として"0,99"を入力します。
      このサンプルでは、0から9の範囲の2つの数字で文字をマスクすることを目指しています。
      2文字を別々にマスクするには、[Modifications] (変更)テーブルに1行を追加し、2つのマスキングオペレーションを定義し、許可される数値の範囲に"0,9"を入力します。

出力コンポーネントの設定とジョブの実行

手順

  1. tLogRowコンポーネントをダブルクリックして、その[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
    tLogRowコンポーネントの設定。
  2. [Sync columns] (カラムを同期)ボタンをクリックし、前のコンポーネントで定義されているスキーマを取得します。
  3. [Mode] (モード)エリアで[Table] (テーブル)を選択します。
  4. ジョブを保存し、F6を押して実行します。

タスクの結果

コンソールからの結果。

tPatternMaskingコンポーネントは、入力データからの値を変更し、元のレコードと代替レコードを出力します。

入力データは変えられていますが、出力データは一貫性のあるリアルなデータに見えます。代替データは、本番環境以外では使用できます。

最初のレコードは、1EG4-T-E5-MK73が元のレコードであるため、trueとしてラベル付けされます。2番目のレコードは、7H24-E-K4-HY91が代替レコードであるため、falseとしてラベル付けされます。
  • tPatternMaskingプロパティの定義に従い、最初の文字は1から9までの数字に置換されます。
  • 2、5、8、9番目の文字は、列挙ファイルで定義された許可値のリストから取った文字に置換されます。
  • 3番目と6番目の文字は、列挙ファイルで定義された許可される英数字の値の1つに置換されます。
  • tPatternMaskingプロパティの定義に従い、4番目と7番目の文字は、0から9の範囲の数字に置換されます。
  • tPatternMaskingプロパティの定義に従い、最後の2文字は、0から99の範囲の数字に置換されます。
  • 入力ではダッシュが区切りとして使用され、出力でも変わりません。

tPatternMaskingコンポーネントは、0EF6-T-F4-AC44nullを出力します。この値が無効なためです: 最初の文字0が指定範囲("1,9")にありません。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。