メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark StreamingのtDataMaskingプロパティ

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtDataMaskingを設定するために使われます。

Spark StreamingtDataMaskingコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントはTalend Real-Time Big Data PlatformTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

情報メモ要確認: Dynamicデータ型を選択する時は次の点に注意してください:
  • データマスキングファンクションはダイナミックカラムの各データに適用されます。たとえばデータのカラムがnameaddressemailであれば、データマスキングファンクションは全体としてではなく各カラムのデータに個別に適用されます。
  • ダイナミックカラムのデータ型が一部のデータマスキングファンクションと互換性がない場合、ジョブは失敗します。たとえば、Email MaskingファンクションはIntegerデータ型と互換性がありません。
  • 一部のデータマスキングファンクションは入力データを検証します。レコードの少なくとも1つのデータがマスキングできない場合、そのレコードは無効な出力フローに進みます。
このコンポーネントの出力スキーマには、読み取り専用カラムが含まれています。
  • TWEAK: [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用)チェックボックスがオンになっている場合に生成されます。このカラムにはデータの解読に必要な微調整が含まれています。
  • ORIGINAL_MARK: レコードが元のレコードであればtrueで、代替レコードであればfalseで識別します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Modifications] (変更)

テーブルで変更するフィールドと変更方法を定義します:

[Input Column] (入力カラム): マスクするデータを含む入力フローからカラムを選択します。

サポートされているデータ型は、DateDoubleFloatIntegerLongStringです。

これらの変更は、[Function] (ファンクション)カラムで選択するファンクションに基づいています。

[Category] (カテゴリー): マスキングファンクションのカテゴリーをリストから選択します。
  • [Character Handling] (文字処理)
  • [Data Handling] (データ処理)
  • [Number Handling] (番号処理)
  • [Bank Account Generation] (銀行口座の生成)
  • [Data Generation] (データ生成)
  • [Phone Number generation] (電話番号の生成)
  • [SSN Generation] (SSNの生成)
  • [Bank Account Masking] (銀行口座のマスキング)
  • [Address Masking] (アドレスのマスキング)
  • [Email Masking] (メールのマスキング)
  • [Credit Card Masking] (クレジットカードのマスキング)
  • [Phone Masking] (電話番号のマスキング)
  • [SSN Masking] (SSNのマスキング)
  • [Set to Null] (Nullに設定)

[Function] (ファンクション): 元のデータを非表示にする、または代用のデータで難読化するファンクションを選択します。たとえば、数値や文字を任意の代用データに置換したり、インデックスファイル内のシノニムに置換したり、値をNullにしたりできます。

[Function] (ファンクション)リストから選択できるファンクションは、入力カラムのデータ型によって異なります。

たとえば、カラムタイプがLongの場合は、Numeric varianceファンクションが使えます。カラムタイプがStringの場合、Numeric varianceファンクションは使えません。また、[Date] (日付)カラムの[Function] (ファンクション)リストは日付に固有で、日付値に対して行う変更のタイプを決定できます。

[Method] (方式): [Basic] (基本)方式または1つのFF1アルゴリズム (フォーマット保持暗号化(FPE))を選択し、[FF1 with AES] (FF1およびAES)または[FF1 with SHA-2] (FF1およびSHA-2)を選択します。

[Basic] (基本)方式がデフォルトのアルゴリズムです。

情報メモ注: マスキング方法は強力なので、[Basic] (基本)方式よりもFF1アルゴリズムを使うことをお勧めします。

[FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。

情報メモ注: Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。

[FF1 with AES] (FF1およびAES)[FF1 with SHA-2] (FF1およびSHA-2)の方式では、一意のマスク値を生成するために、[Advanced settings] (詳細設定)[Password or 256-bit key for FF1 methods] (FF1方式のパスワードまたは256ビットキー)フィールドにパスワードを設定する必要があります。

[Alphabet] (アルファベット)リストは、フォーマット保持暗号化アルゴリズムを使うファンクションでのみ利用できます。

FPEメソッドと共に[Character handling] (文字処理)ファンクション(たとえば[Replace all] (すべて置換)[Replace characters between two positions] (2つのポジション間の文字を置換)[Replace all digits] (すべての桁を置換)など)を使う時は、アルファベットを選択する必要があります。

選択したアルファベットに属する文字は、選択したアルファベット内の同じ文字タイプの文字でマスクされます。

[Best guess] (最も妥当と思われるもの)アルファベットを選択している時は、マスク値には入力値に表示されるすべてのアルファベットからの文字が含まれます。[Best guess] (最も妥当と思われるもの)はデフォルトのアルファベットです。

認識されていない文字はそのまま出力にコピーされます。

[Extra Parameter] (追加パラメーター): このフィールドは一部のファンクションで使用されますが、使用されない場合は無効になります。必要に応じて、選択したファンクションの動作を決定するための数値または文字を入力します。

[Function] (ファンクション)[Generate from file/list] (ファイル/リストから生成)に設定する場合は、[Extra Parameter] (追加パラメーター)でファイルパスを定義します。ファイルパスを次のように設定します。
  • ローカルモードの場合:
    • Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
    • Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
  • スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。
  • インデックスがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。

[Keep format] (保存形式): このファンクションは文字列でのみ使用されます。このチェックボックスを選択すると、[Generate account number and keep original country] (口座番号を生成して元の国を保持)[Generate credit card number and keep original bank] (クレジットカード番号を生成し、元の銀行を保持)[Bank Account Masking] (銀行口座のマスキング)[Credit Card Masking] (クレジットカードのマスキング)[Phone Masking] (電話のマスキング)[SSN Masking] (SSNのマスキング)ファンクションまたはカテゴリーによる入力形式が保持されます。つまり、入力にスペース、ドット('.')、ハイフン('-')、スラッシュ('/')のいずれかが含まれる場合、それらの文字は出力でも保持されます。このチェックボックスを選択すると、[Phone Masking] (電話のマスキング)ファンクションを使う時に、入力に含まれている数値以外の文字が出力にそのままコピーされます。

詳細設定

[FF1 settings] (FF1の設定)

[Password or 256-bit key for FF1 methods] (FF1メソッドのパスワードまたは256ビットキー): [FF1 with AES] (FF1およびAES)方式と[FF1 with SHA-2] (FF1およびSHA-2)方式で一意のマスク値を生成するために必要なパスワードかシークレットキーを設定するために使われます。パスワードを設定しないと、ジョブの実行時に毎回ランダムパスワードが作成されます。[FF1 with AES] (FF1およびAES)方式と[FF1 with SHA-2] (FF1およびSHA-2)方式、そしてパスワードを使っている時、[Seed for random generator] (ランダムジェネレーターをシード)フィールドからのシードは使われません。

256ビットキーは次のいずれかを使って取得できます。
  • オンラインツール
  • OpenSSL: openssl rand -base64 32

[Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用): 微調整を使用する場合は、このチェックボックスを選択します。各レコードに対して一意の調整が生成され、レコードのすべてのデータに適用されます。 全単射マスキングが必要な場合は、このフィーチャーを使わないでください。微調整の詳細は、データマスキングファンクションをご覧ください。

[Use a column containing the tweaks] (微調整が含まれているカラムを使用): [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用)チェックボックスがオンになっている場合に利用できます。このチェックボックスを選択すると、32桁の16進文字列でなければならない微調整の入カとして入力カラムを使用できます。

[Column containing the tweaks] (微調整が含まれているカラム): [Use a column containing the tweaks] (微調整が含まれているカラムを使用)チェックボックスがオンの場合に利用できます。微調整が含まれているカラムを選択します。

[Key derivation function] (キー導出関数): キー導出関数を選択します。反復回数が30万回のPBKDF2を使い、Talend Studio 8.0 R2022-04の実行で作成されたジョブです。

Talend Studio 8.0 R2022-04より前のジョブをインポートする場合は、30万回の反復回数でこのジョブを実行できます。反復回数が65,536回の場合とは異なる結果となります。

[Seed for random generator] (ランダムジェネレーターをシード)

ジョブの実行ごとに同じサンプルの代替データを生成する場合は、乱数を設定するために使われます。シードはデフォルトでは設定されません。

このフィールドはLongタイプです。値の範囲は [-263、263-1].

シードを設定しないと、コンポーネントが各ジョブの実行に対して新しいランダムシードを作成します。シードを変更して実行を繰り返すと、異なるサンプルが生成されます。

[Encoding] (エンコーディング)

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。[Custom] (カスタム)を選択し、フィールドを空のままにすると、サポートされているエンコーディングは使用しているJVMに依存します。このフィールドはファイルエンコーディングには必須です。

元の行を出力

このチェックボックスを選択すると、代替データに加えて元のデータ行が出力されます。元のデータと代替データの両方を出力すると、デバッグやテストのプロセスで役に立つ場合があります。

Null入力はnullを返す

このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。

クリアされると、入力データがnullの場合にマスキングファンクションが適用されます:
  • 入力データを検証しないファンクション(文字処理ファンクション、住所マスキングファンクション、数値分散ファンクション)は、データ型に応じてデフォルト値を返します:
    • 文字列: 空の出力。
    • 数値入力: 0

    日付分散ファンクションの場合、出力される日付はジョブが実行された日付になります。

  • 生成ファンクションによって新しい値が生成されます。データはメインフローに送信されます。
  • 検証ファンクション(メールマスキング、電話マスキング、クレジットカードマスキング、SSNマスキング、銀行口座マスキング)は、値を検証できません。データは「無効な」出力フローに送信されます。

Talend Studio R2024-08以降、[Null input returns null] (Null入力はnullを返す)が選択され、入力データがNullの場合、マスキングファンクションは適用されずにnullが返され、入力データはメインフローに送信されます。

空の入力は空の出力を返します

このチェックボックスを選択すると、出力データ内で空の値は変わらずそのままになります。それ以外の場合は、選択したファンクションが入力データに適用されます。

[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信)
このチェックボックスはデフォルトで選択されています。
  • オン: マスク可能な場合は、メインフローに送信されます。それ以外の場合、データは「無効な」出力フローに送信されます。
  • オフ: データはメインフローに送信されます。
次の場合、データは無効と見なされます。

使用方法

使用ルール

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

このコンポーネントは中間ステップとして使用されます。

ジョブ全体でのSparkクラスターへの接続を定義するには、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブを使用します。

この接続は、ジョブごとに有効になります。

TalendのSpark Streamingジョブの詳細は、Spark Streamingジョブの使い方をご覧ください。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。