入力フローからの複製データの生成
このシナリオでは、確率論と3つのカラム、[Name] (名前)、[City] (市区町村)、および[DOB] (生年月日)への特定の基準を使って、複製データのサンプルを入力フローから生成する基本的なジョブについて説明します。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオで使うコンポーネントは、以下のとおりです。
- tFileInputDelimited (入力コンポーネントとして)。
- tDuplicateRow: 入力フローから複製データを生成します。
- tFileOutputDelimited: 顧客データを区切りファイルに出力します。
以下は、入力フローのサンプルデータをキャプチャーしたものです。
ジョブを設定
手順
- [Palette] (パレット)から、tFileInputDelimited、tDuplicateRow、およびtFileOutputDelimitedをデザインワークスペースにドロップします。
- [Row] (行) > [Main] (メイン)リンクを使用してコンポーネントを接続します。
入力データを設定
手順
複製データの設定
手順
出力コンポーネントを設定
手順
ジョブを実行
手順
各確率分布のグラフ結果の表示
複製が3つの確率分布のそれぞれに応じてどのように生成されたかを確認する最良の方法は、各結果で一致分析を作成して、グラフを比較することです。
手順
タスクの結果
[Bernoulli distribution] (Bernoulliディストリビューション): カーブは対称的です。複製のグループは各サイドに均等に分布されており、この例の平均値は4です。この平均値は複製グループの平均的な複製数であり、この値はtDuplicateRowコンポーネントの基本設定の[Average group size] (平均グループサイズ)フィールドで設定した数値です。
[Poisson distribution] (Poissonディストリビューション): カーブは対称的ではありません。複製のグループは不均等に分布されています。
[Geometric distribution] (幾何分布): tDuplicateRowの基本設定で設定した複製レコードの割合によって決まります。割合が高いほど、レコード数が多いグループは少なくなります。この例では、複製レコードの割合は80%に設定されています。そのため、2つの複製レコードを持つ多くのグループが生成され(148グループ)、複製レコードの数が14、15、16のグループは1つしかありません。