Apache Spark BatchのtDataUnmaskingプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataUnmaskingを設定するために使われます。

Spark BatchのtDataUnmaskingコンポーネントは、データクオリティファミリーに属しています。

基本設定

プロパティ	説明
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがそれぞれ元のレコード代替レコードであるかどうか識別されます。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Modifications] (変更)	テーブルで、マスクを解除するフィールドとそれらのマスクを解除する方法を定義します: [Input Column] (入力カラム): マスクを解除するデータを含む入力フローからカラムを選択します。ユーザー定義のパスワードと組み合わせたFF1 with AESまたはFF1 with SHA-2を使えば、tDataMaskingコンポーネントでマスクされたデータをすべてマスキング解除できます。これらの変更は、[Function] (ファンクション)カラムで選択するファンクションに基づいています。 [Category] (カテゴリー): マスキング解除関数のカテゴリーをリストから選択します。 [Functions] (ファンクション): データのマスクを解除するファンクションを選択します。 [Function] (ファンクション)リストから選択できるファンクションは、入力カラムのデータ型によって異なります。 [Method] (メソッド): このリストから、データをマスクするために使用したフォーマット保持暗号化(FPE)アルゴリズムFF1 with AESかFF1 with SHA-2を選択します: [FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。 Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。データをマスキング解除するためには、[FF1 with AES] (FF1およびAES)メソッドと[FF1 with SHA-2] (FF1およびSHA-2)メソッドで、tDataMaskingコンポーネントでマスキングされた時に[Password or 256-bit key for FF1 methods (FF1メソッドのパスワードまたは256ビットキー)フィールドで指定されているパスワードが必要です。 FPEメソッドと共に[Character handling] (文字処理)ファンクション(たとえば[Replace all] (すべて置換)、[Replace characters between two positions] (2つのポジション間の文字を置換)、[Replace all digits] (すべての桁を置換)など)を使う時は、アルファベットを選択する必要があります。 [Alphabet] (アルファベット)リストから、tDataMaskingコンポーネントでデータをマスキングするために使用するアルファベットを選択します。 [Extra Parameter] (追加パラメーター): このフィールドは一部のファンクションで使用されますが、使用されない場合は無効になります。必要に応じて、選択したファンクションの動作を決定するための数値または文字を入力します。 [Keep format] (保存形式): このファンクションは文字列でのみ使用されます。[Bank Account Unmasking] (銀行口座のマスキング解除)、[Credit Card Unmasking] (クレジットカードのマスキング解除)、[Phone Unmasking] (電話のマスキング解除)、および[SSN Unmasking] (SSNのマスキング解除)のカテゴリーを使う時に入力形式を維持するには、このチェックボックスを選択します。つまり、入力にスペース、ドット('.')、ハイフン('-')、スラッシュ('/')のいずれかが含まれる場合、それらの文字は出力でも保持されます。このチェックボックスを選択すると、[Phone Unmasking] (電話のマスキング解除)ファンクションを使う時に、入力に含まれている数値以外の文字が出力にそのままコピーされます。

プロパティ

説明

[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
- [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。
- [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。
- [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。
  
  変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。
このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがそれぞれ元のレコード代替レコードであるかどうか識別されます。
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Modifications] (変更)

テーブルで、マスクを解除するフィールドとそれらのマスクを解除する方法を定義します:

[Input Column] (入力カラム): マスクを解除するデータを含む入力フローからカラムを選択します。

ユーザー定義のパスワードと組み合わせたFF1 with AESまたはFF1 with SHA-2を使えば、tDataMaskingコンポーネントでマスクされたデータをすべてマスキング解除できます。

これらの変更は、[Function] (ファンクション)カラムで選択するファンクションに基づいています。

[Category] (カテゴリー): マスキング解除関数のカテゴリーをリストから選択します。

[Functions] (ファンクション): データのマスクを解除するファンクションを選択します。

[Function] (ファンクション)リストから選択できるファンクションは、入力カラムのデータ型によって異なります。

[Method] (メソッド): このリストから、データをマスクするために使用したフォーマット保持暗号化(FPE)アルゴリズムFF1 with AESかFF1 with SHA-2を選択します:

[FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。

Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。

データをマスキング解除するためには、[FF1 with AES] (FF1およびAES)メソッドと[FF1 with SHA-2] (FF1およびSHA-2)メソッドで、tDataMaskingコンポーネントでマスキングされた時に[Password or 256-bit key for FF1 methods (FF1メソッドのパスワードまたは256ビットキー)フィールドで指定されているパスワードが必要です。

FPEメソッドと共に[Character handling] (文字処理)ファンクション(たとえば[Replace all] (すべて置換)、[Replace characters between two positions] (2つのポジション間の文字を置換)、[Replace all digits] (すべての桁を置換)など)を使う時は、アルファベットを選択する必要があります。

[Alphabet] (アルファベット)リストから、tDataMaskingコンポーネントでデータをマスキングするために使用するアルファベットを選択します。

[Extra Parameter] (追加パラメーター): このフィールドは一部のファンクションで使用されますが、使用されない場合は無効になります。必要に応じて、選択したファンクションの動作を決定するための数値または文字を入力します。

[Keep format] (保存形式): このファンクションは文字列でのみ使用されます。[Bank Account Unmasking] (銀行口座のマスキング解除)、[Credit Card Unmasking] (クレジットカードのマスキング解除)、[Phone Unmasking] (電話のマスキング解除)、および[SSN Unmasking] (SSNのマスキング解除)のカテゴリーを使う時に入力形式を維持するには、このチェックボックスを選択します。つまり、入力にスペース、ドット('.')、ハイフン('-')、スラッシュ('/')のいずれかが含まれる場合、それらの文字は出力でも保持されます。このチェックボックスを選択すると、[Phone Unmasking] (電話のマスキング解除)ファンクションを使う時に、入力に含まれている数値以外の文字が出力にそのままコピーされます。

詳細設定

プロパティ	説明
[FF1 settings] (FF1の設定)	[Password or 256-bit key for FF1 methods] (FF1メソッドのパスワードまたは256ビットキー): データをマスキング解除するためには、[FF1 with AES] (FF1およびAES)メソッドと[FF1 with SHA-2] (FF1およびSHA-2)メソッドで、tDataMaskingコンポーネントでマスキングされた時に[Password or 256-bit key for FF1 methods (FF1メソッドのパスワードまたは256ビットキー)フィールドで指定されているパスワードかシークレットキーが必要です。 [Use tweaks] (微調整を使用): データのマスキング中に微調整が生成された場合は、このチェックボックスを選択します。オンにすると、[Column containing tweaks] (微調整が含まれているカラム)リストが表示されます。微調整により、レコードのすべてのデータをマスキング解除できます。 [Column containing the tweaks] (微調整が含まれているカラム): [Use tweaks] (微調整を使用)チェックボックスがオンの場合に利用できます。微調整が含まれているカラムを選択します。表示されない場合は、マスキングコンポーネントによって生成された微調整が入力コンポーネントで宣言済みであることをご確認ください。 [Key derivation function] (キー導出関数): データをマスキングする場合と同じキー導出関数を選択します。デフォルトでは[PBKDF2 with 300,000 iterations] (反復回数が30万回のPBKDF2)が選択されています。
[Output the original row] (元の行を出力)	このチェックボックスをオンにすると、元のデータに加えてマスクされたデータ行が出力されます。両方のデータ行を持つことは、デバッグまたはテストプロセスで役立ちます。
Null入力はnullを返す	このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。クリアされると、入力データがnullの場合にマスキングファンクションが適用されます: 文字処理ファンクションは、データ型に応じてデフォルト値を返します: 文字列: 空の出力。数値入力: `0`。検証ファンクション(電話マスキング解除、クレジットカードマスキング解除、SSNマスキング解除、銀行口座マスキング解除)は、値を検証できません。データは「無効な」出力フローに送信されます。 Talend Studio R2024-08以降、[Null input returns null] (Null入力はnullを返す)が選択され、入力データがNullの場合、マスキングファンクションは適用されずにnullが返され、入力データはメインフローに送信されます。
空の入力は空の出力を返します	このチェックボックスをオンにすると、入力値が空の場合、コンポーネントによって入力値が返されます。それ以外の場合は、選択したファンクションが入力データに適用されます。
[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信)	このチェックボックスはデフォルトで選択されています。オン: データをマスキング解除できる場合は、メインフローに送信されます。それ以外の場合、データは「無効な」出力フローに送信されます。オフ: データはメインフローに送信されます。次の場合、データは無効と見なされます。使う方法に関係なく、SSN、電話番号、またはメールアドレスの形式が正しくありません。これらは、[FF1 with AES] (FF1およびAES)と[FF1 with SHA-2] (FF1およびSHA-2)メソッドには準拠していません。

使用方法

使用方法のガイダンス	説明
使用ルール	このコンポーネントは中間ステップとして使用されます。このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用方法のガイダンス

説明

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください