Apache Spark StreamingのtPatternUnmaskingプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtPatternUnmaskingを設定するために使われます。
Spark StreamingのtPatternUnmaskingコンポーネントは、データクオリティファミリーに属しています。
基本設定
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがマスクされたものか、オリジナルであるかどうか識別されます。 |
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Modifications] (変更) |
テーブルで、マスクを解除するフィールドとそれらのマスクを解除する方法を定義します: [Field type] (フィールドタイプ)、[Values] (値)、[Path] (パス)、[Range] (範囲)および[Date Range] (日付範囲)カラムには、tPatternMaskingコンポーネントで入力データをマスクするために使用したものと同じ設定を使用します。 [Column to unmask] (マスキング解除カラム):マスクを解除するデータを含む入力フローからカラムを選択します。 各カラムは順次処理され、最初のカラムからのデータに対してデータアンマスクオペレーションが実行され、2番目以降のカラムも同様に実行されます。 カラム内では、最後のデータフィールドを除いて、各データフィールドが固定長フィールドになっています。 固定長フィールドの場合は、たとえば、"30001,30002,30003"または"FR,EN"のように、各値に含まれる文字数が同じである必要があります。 カラム内の最後の[Enumeration] (列挙)または[Enumeration from file] (ファイルからの列挙)データフィールドは、可変長フィールドです。 可変長フィールドの場合は、たとえば、"30001,300023,30003"または"FR,ENG"のように、各値に含まれる文字数は常に同じとは限りません。 [Field type] (フィールドタイプ): データが属しているフィールドタイプを選択します。
[Values] (値)、[Path] (パス)、[Range] (範囲)および[Date Range] (日付範囲)に入力する値は、二重引用符で囲む必要があります。 入力データが無効な場合、すなわち、値がコンポーネントで定義したパターンにマッチしない場合、生成される値はnullとなります。 |
詳細設定
メソッド |
このリストから、データをマスクするために使用したフォーマット保持暗号化(FPE)アルゴリズムFF1 with AESかFF1 with SHA-2を選択します: [FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。 Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。 |
[FF1 settings] (FF1の設定) |
[Password or 256-bit key for FF1 methods] (FF1メソッドのパスワードまたは256ビットキー): データをマスキング解除するためには、[FF1 with AES] (FF1およびAES)メソッドと[FF1 with SHA-2] (FF1およびSHA-2)メソッドで、tPatternMaskingコンポーネントでマスキングされた時に[Password or 256-bit key for FF1 methods (FF1メソッドのパスワードまたは256ビットキー)フィールドで指定されているパスワードかシークレットキーが必要です。 [Use tweaks] (微調整を使用): データのマスキング中に微調整が生成された場合は、このチェックボックスを選択します。オンにすると、[Column containing tweaks] (微調整が含まれているカラム)リストが表示されます。微調整により、レコードのすべてのデータをマスキング解除できます。 [Column containing the tweaks] (微調整が含まれているカラム): [Use tweaks] (微調整を使用)チェックボックスがオンの場合に利用できます。微調整が含まれているカラムを選択します。表示されない場合は、マスキングコンポーネントによって生成された微調整が入力コンポーネントで宣言済みであることをご確認ください。 [Key derivation function] (キー導出関数): データをマスキングする場合と同じキー導出関数を選択します。デフォルトでは[PBKDF2 with 300,000 iterations] (反復回数が30万回のPBKDF2)が選択されています。 |
[Seed for random generator] (ランダムジェネレーターをシード) |
ジョブの実行ごとに同じサンプルの代替データを生成する場合は、乱数を設定するために使われます。シードはデフォルトでは設定されません。 シードを設定しないと、コンポーネントが各ジョブの実行に対して新しいランダムシードを作成します。シードを変更して実行を繰り返すと、異なるサンプルが生成されます。 |
[Encoding] (エンコーディング) |
リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。[Custom] (カスタム)を選択し、フィールドを空のままにすると、サポートされているエンコーディングは使用しているJVMに依存します。このフィールドはファイルエンコーディングには必須です。 |
元の行を出力 |
このチェックボックスを選択すると、代替データに加えて元のデータ行が出力されます。元のデータと代替データの両方を出力すると、デバッグやテストのプロセスで役に立つ場合があります。 |
Null入力はnullを返す |
このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。 クリアされると、入力データがnullの場合はその入力データが[Invalid] (無効)出力フローに送信されます。 Talend Studio R2024-08以降、[Null input returns null] (Null入力はnullを返す)が選択され、入力データがNullの場合、マスキングファンクションは適用されずにnullが返され、入力データはメインフローに送信されます。 |
空の入力は空の出力を返します |
このチェックボックスを選択すると、出力データ内で空の値は変わらずそのままになります。それ以外の場合は、選択したファンクションが入力データに適用されます。 |
[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信) |
このチェックボックスはデフォルトで選択されています。
|
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |