Apache Spark BatchのtPatternMaskingプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtPatternMaskingを設定するために使われます。

Spark BatchのtPatternMaskingコンポーネントは、データクオリティファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで利用できます。

基本設定

プロパティ	説明
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。このコンポーネントの出力スキーマには、読み取り専用カラムが含まれています。 TWEAK: [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用)チェックボックスがオンになっている場合に生成されます。このカラムにはデータの解読に必要な微調整が含まれています。 ORIGINAL_MARK: レコードが元のレコードであればtrueで、代替レコードであればfalseで識別します。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Modifications] (変更)	テーブルで変更するフィールドと変更方法を定義します: [Column to mask] (マスクするカラム): 入力フローからカラムを選択し、値を変更して同種のデータを生成します。異なる複数のカラムからのデータをマスクできますが、マスクするフィールドの順序に従う必要があります。各カラムは順次処理されます。すなわち、最初のカラムからのデータに対してデータマスキングオペレーションが実行され、2番目以降のカラムも同様に実行されます。カラム内では、最後のデータフィールドを除いて、各データフィールドが固定長フィールドになっています。固定長フィールドの場合は、たとえば、`"30001,30002,30003"`または`"FR,EN"`のように、各値に含まれる文字数が同じである必要があります。カラム内の最後の[Enumeration] (列挙)または[Enumeration from file] (ファイルからの列挙)データフィールドは、可変長フィールドです。可変長フィールドの場合は、たとえば、`"30001,300023,30003"`または`"FR,ENG"`のように、各値に含まれる文字数は常に同じとは限りません。 [Field type] (フィールドタイプ): データが属しているフィールドタイプを選択します。 [Interval] (間隔): 選択時に次の構文を使用して、マスクに使用する数値の範囲を[Range] (範囲)フィールドで設定します: `"<min>,<max>"`。入力データからマスクされる文字の数は、最大値の文字数に対応します。たとえば、`"1,999"`は`"001,999"`として解釈されます。すなわち、入力データからの3文字が、定義済みの値の範囲からランダムに選択された値によってマスクされます。 [Enumeration] (列挙): 選択時に次の構文を使用して、[Values] (値)フィールド内のデータをマスクするために使用する値のコンマ区切りリストを入力します: `"value1,value2,value3"`。各値の文字数は同じである必要があります。たとえば、`"30001,30002,30003"`または`"FR,EN"`です。 [Enumeration from file] (ファイルからの列挙): 選択時に、[Path] (パス)フィールド内のデータをマスクするために使用する値のリストを含むCSVファイルへのパスを設定するために使われます。ファイルには行ごとに1つの値が含まれていて、各値は一意で、値の文字数は同じである必要があります。次の場所でファイルを選択できます。ローカルシステム。 Amazon S3 (ローカルSparkモード、またはtS3Configurationを使ってEMRに接続)。S3NおよびS3Aファイルシステムがサポートされています。 Azure Blob Storage (ローカルSparkモード、またはtAzureFSConfigurationを使ってAzure HDInsightかDatabricksに接続)。 Azure Data Lake Storage (ローカルSparkモード、またはtAzureFSConfigurationを使ってAzure HDInsightに接続)。 Google Cloud Storage (ローカルSparkモード、またはtGSConfigurationを使ってDataprocに接続)。 HDFS (ローカルSparkモード、またはtHDFSConfigurationを使ってAzure HDInsightに接続)。ファイルパスを次のように設定します。ローカルモードの場合: Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。 Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。ファイルがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。ファイルがAzure Blob Storage上にあり、Azure HDInsightかDatabricksに接続している場合は、wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/<folder>/<file_name>となります。フォルダーへのパスはサポートされていません。 [Date pattern (YYYYMMDD)] (日付パターン(YYYYMMDD)): 選択時に次の構文を使用して、[Date Range] (日付範囲)フィールドに年の範囲を設定するために使われます: `"<min_year>,<max_year>"`。年はたとえば`"1900,2100"`のように、必ず4桁にしてください。マスクする入力日付には、たとえば `20180101`のように、YYYYMMDDのパターンを使用してください。たとえば、入力日付が`20180101`で[Date Range] (日付範囲)内の値が`"1900,2100"`である場合、出力日付はたとえば19221221のようになります。 [Values] (値)、[Path] (パス)、[Range] (範囲)および[Date Range] (日付範囲)に入力する値は、二重引用符で囲む必要があります。入力データが無効な場合、すなわち、値がコンポーネントで定義したパターンにマッチしない場合、生成される値はnullとなります。

プロパティ

説明

[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
- [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。
- [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。
- [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。
  
  変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。
このコンポーネントの出力スキーマには、読み取り専用カラムが含まれています。
- TWEAK: [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用)チェックボックスがオンになっている場合に生成されます。このカラムにはデータの解読に必要な微調整が含まれています。
- ORIGINAL_MARK: レコードが元のレコードであればtrueで、代替レコードであればfalseで識別します。
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Modifications] (変更)

テーブルで変更するフィールドと変更方法を定義します:

[Column to mask] (マスクするカラム): 入力フローからカラムを選択し、値を変更して同種のデータを生成します。

異なる複数のカラムからのデータをマスクできますが、マスクするフィールドの順序に従う必要があります。

各カラムは順次処理されます。すなわち、最初のカラムからのデータに対してデータマスキングオペレーションが実行され、2番目以降のカラムも同様に実行されます。

カラム内では、最後のデータフィールドを除いて、各データフィールドが固定長フィールドになっています。

固定長フィールドの場合は、たとえば、"30001,30002,30003"または"FR,EN"のように、各値に含まれる文字数が同じである必要があります。

カラム内の最後の[Enumeration] (列挙)または[Enumeration from file] (ファイルからの列挙)データフィールドは、可変長フィールドです。

可変長フィールドの場合は、たとえば、"30001,300023,30003"または"FR,ENG"のように、各値に含まれる文字数は常に同じとは限りません。

[Field type] (フィールドタイプ): データが属しているフィールドタイプを選択します。

[Interval] (間隔): 選択時に次の構文を使用して、マスクに使用する数値の範囲を[Range] (範囲)フィールドで設定します: "<min>,<max>"。

入力データからマスクされる文字の数は、最大値の文字数に対応します。

たとえば、"1,999"は"001,999"として解釈されます。すなわち、入力データからの3文字が、定義済みの値の範囲からランダムに選択された値によってマスクされます。
[Enumeration] (列挙): 選択時に次の構文を使用して、[Values] (値)フィールド内のデータをマスクするために使用する値のコンマ区切りリストを入力します: "value1,value2,value3"。

各値の文字数は同じである必要があります。たとえば、"30001,30002,30003"または"FR,EN"です。
[Enumeration from file] (ファイルからの列挙): 選択時に、[Path] (パス)フィールド内のデータをマスクするために使用する値のリストを含むCSVファイルへのパスを設定するために使われます。ファイルには行ごとに1つの値が含まれていて、各値は一意で、値の文字数は同じである必要があります。
次の場所でファイルを選択できます。
- ローカルシステム。
- Amazon S3 (ローカルSparkモード、またはtS3Configurationを使ってEMRに接続)。S3NおよびS3Aファイルシステムがサポートされています。
- Azure Blob Storage (ローカルSparkモード、またはtAzureFSConfigurationを使ってAzure HDInsightかDatabricksに接続)。
- Azure Data Lake Storage (ローカルSparkモード、またはtAzureFSConfigurationを使ってAzure HDInsightに接続)。
- Google Cloud Storage (ローカルSparkモード、またはtGSConfigurationを使ってDataprocに接続)。
- HDFS (ローカルSparkモード、またはtHDFSConfigurationを使ってAzure HDInsightに接続)。
ファイルパスを次のように設定します。
- ローカルモードの場合:
  - Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
  - Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
- スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。
- ファイルがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。
- ファイルがAzure Blob Storage上にあり、Azure HDInsightかDatabricksに接続している場合は、wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/<folder>/<file_name>となります。
フォルダーへのパスはサポートされていません。
[Date pattern (YYYYMMDD)] (日付パターン(YYYYMMDD)): 選択時に次の構文を使用して、[Date Range] (日付範囲)フィールドに年の範囲を設定するために使われます: "<min_year>,<max_year>"。

年はたとえば"1900,2100"のように、必ず4桁にしてください。

マスクする入力日付には、たとえば 20180101のように、YYYYMMDDのパターンを使用してください。

たとえば、入力日付が20180101で[Date Range] (日付範囲)内の値が"1900,2100"である場合、出力日付はたとえば19221221のようになります。

[Values] (値)、[Path] (パス)、[Range] (範囲)および[Date Range] (日付範囲)に入力する値は、二重引用符で囲む必要があります。

入力データが無効な場合、すなわち、値がコンポーネントで定義したパターンにマッチしない場合、生成される値はnullとなります。

詳細設定

プロパティ	説明
Method	コンポーネントは、フォーマット保持暗号化(FPE)方式を使用して、マスクされた出力値を入力値と同じフォーマットで生成します。 FPE方式は微調整を使用する場合を除き、全単射方式です。 [Basic] (基本)方式がデフォルトのアルゴリズムです。情報メモ注: マスキング方法は強力なので、[Basic] (基本)方式よりもFF1アルゴリズムを使うことをお勧めします。 [FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。これらのメソッドは、コンポーネントが入力パターンから生成できる可能な値の数が1,000,000以上である場合に限り使用できます。情報メモ注: Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。 [FF1 with AES] (FF1およびAES)と[FF1 with SHA-2] (FF1およびSHA-2)の方式では、一意のマスク値を生成するために、[Advanced settings] (詳細設定)の[Password or 256-bit key for FF1 methods] (FF1方式のパスワードまたは256ビットキー)フィールドにパスワードを設定する必要があります。
[FF1 settings] (FF1の設定)	[Password or 256-bit key for FF1 methods] (FF1メソッドのパスワードまたは256ビットキー): [FF1 with AES] (FF1およびAES)方式と[FF1 with SHA-2] (FF1およびSHA-2)方式で一意のマスク値を生成するために必要なパスワードかシークレットキーを設定するために使われます。パスワードを設定しないと、ジョブの実行時に毎回ランダムパスワードが作成されます。[FF1 with AES] (FF1およびAES)方式と[FF1 with SHA-2] (FF1およびSHA-2)方式、そしてパスワードを使っている時、[Seed for random generator] (ランダムジェネレーターをシード)フィールドからのシードは使われません。 256ビットキーは次のいずれかを使って取得できます。オンラインツール OpenSSL: openssl rand -base64 32 [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用): 微調整を使用する場合は、このチェックボックスを選択します。各レコードに対して一意の調整が生成され、レコードのすべてのデータに適用されます。全単射マスキングが必要な場合は、このフィーチャーを使わないでください。微調整の詳細は、データマスキングファンクションをご覧ください。 [Use a column containing the tweaks] (微調整が含まれているカラムを使用): [Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用)チェックボックスがオンになっている場合に利用できます。このチェックボックスを選択すると、32桁の16進文字列でなければならない微調整の入カとして入力カラムを使用できます。 [Column containing the tweaks] (微調整が含まれているカラム): [Use a column containing the tweaks] (微調整が含まれているカラムを使用)チェックボックスがオンの場合に利用できます。微調整が含まれているカラムを選択します。 [Key derivation function] (キー導出関数): キー導出関数を選択します。反復回数が30万回のPBKDF2を使い、Talend Studio 8.0 R2022-04の実行で作成されたジョブです。 Talend Studio 8.0 R2022-04より前のジョブをインポートする場合は、30万回の反復回数でこのジョブを実行できます。反復回数が65,536回の場合とは異なる結果となります。
[Seed for random generator] (ランダムジェネレーターをシード)	ジョブの実行ごとに同じサンプルの代替データを生成する場合は、乱数を設定します。シードはデフォルトでは設定されません。シードを設定しないと、コンポーネントが各ジョブの実行に対して新しいランダムシードを作成します。シードを変更して実行を繰り返すと、異なるサンプルが生成されます。
[Encoding] (エンコーディング)	リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。[Custom] (カスタム)を選択し、フィールドを空のままにすると、サポートされているエンコーディングは使用しているJVMに依存します。このフィールドはファイルエンコーディングには必須です。
元の行を出力	このチェックボックスを選択すると、代替データに加えて元のデータ行が出力されます。元のデータと代替データの両方を出力すると、デバッグやテストのプロセスで役に立つ場合があります。
Null入力はnullを返す	このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。クリアされると、入力データがnullの場合はその入力データが[Invalid] (無効)出力フローに送信されます。 Talend Studio R2024-08以降、[Null input returns null] (Null入力はnullを返す)が選択され、入力データがNullの場合、マスキングファンクションは適用されずにnullが返され、入力データはメインフローに送信されます。
空の入力は空の出力を返します	このチェックボックスを選択すると、出力データ内で空の値は変わらずそのままになります。それ以外の場合は、選択したファンクションが入力データに適用されます。
[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信)	このチェックボックスはデフォルトで選択されています。オン: マスク可能な場合は、メインフローに送信されます。それ以外の場合、データは「無効な」出力フローに送信されます。オフ: データはメインフローに送信されます。無効なデータとは、パターンにマッチしない値のことです。

使用方法

使用方法のガイダンス	説明
使用ルール	このコンポーネントは中間ステップとして使用されます。このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用方法のガイダンス

説明

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください