tDuplicateRowの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtDuplicateRowを設定するために使われます。
標準のtDuplicateRowコンポーネントは、データクオリティファミリーに属しています。
このコンポーネントは、Talend Data Management PlatformTalend Big Data Platform、Talend Real-Time Big Data PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムを同期)をクリックします。 このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがそれぞれ元のレコードか重複レコードかが識別されます。元レコードは各グループに1つのみです。 |
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
Percentage of duplicated records (複製レコードの割合) |
出力フローに含める複製行の割合を入力します。 |
Distribution of duplicates (複製の分布) |
[Name:] (名前:)複製の生成に使用する確率分布を選択します: ベルヌーイ分布、ポアソン分布、幾何分布のいずれか。 Average group size (平均グループサイズ): 複製グループで生成する複製レコードの平均数を設定するために使われます。 |
[Modifications] (変更) |
行内で変更するフィールドとその方法をテーブル内で定義します。 Input Column (入力カラム): 値を変更して複製を生成する入力フローからカラムを選択します。 -Modification Rate (変更率): 入力カラムから生成した複製レコードに適用する変更率を入力します。変更率の値は0~1です。変更率を0に設定すると、変更は行われません。変更率を0.5に設定すると、変更は平均して2行ごとに行われます。しかし変更率を1に設定した場合、変更は各行で行われます。 値の変更は、[Function] (ファンクション)カラムで選択したファンクションおよび[Max Modification Count] (最大変更回数)カラムで設定した変更の回数に基づいて行われます。 -Function (ファンクション): 複製する値をどのように変更するかを決めるファンクションを選択します。たとえば、文字や数字を置換または追加したり、インデックスファイルからのシノニムに値を置換したり、ファンクションをNullに設定して値を削除することで、正確な複製値または類似する複製値にできます。 [Function] (ファンクション)リストは、カラムタイプによって異なります。たとえば、文字列型のカラムの場合、リストには[Add letters] (文字の追加)オプションがあり、整数値型カラムでは、リストに[Add digits] (桁数の追加)オプションがあります。また、[Date] (日付)カラムの[Function] (ファンクション)リストは日付固有のものになります。[Date] (日付)カラムで使用されるファンクションの詳細は、tDuplicateRowの日付ファンクションをご覧ください。 -Max Modification Count (最大変更数): 変更する値の最大数を入力します。 -Synonym Index Path (シノニムインデックスのパス):シノニムを使用するインデックスファイルへのパスを設定するために使われます。 Synonym replaceファンクションを選択するとこのフィールドを使用できます。その場合、複製レコードの値は、特定の率に応じてシノニムの1つに置き換わります。 Luceneインデックスを作成し、シノニムをそのインデックスにフィードするには、tSynonymOutputコンポーネントを使用する必要があります。シノニムインデックスを作成し、参照エントリーを定義する方法は、tSynonymOutputをご覧ください。 |
詳細設定
[Seed for random generator] (ランダムジェネレーターをシード) |
ジョブの各実行で複製の同じサンプルを生成する場合は、ランダムな数値を設定するために使われます。 シードの値を変更して実行を繰り返すと、異なる複製サンプルが生成されます。 ジョブを実行するたびに異なる複製サンプルを生成する場合は、このフィールドを空のままにしておきます。 |
[tStat Catcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。 |
使用方法
使用ルール |
このコンポーネントを使用すると、特定の基準に従って入力フローの複製データを生成し、テスト目的に使用できます。 |