テスト顧客データを生成して処理
手順
- [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
-
開いたパネルで、作成する接続のタイプを選択します。
例
data generator -
[Engine] (エンジン)リストでエンジンを選択します。
情報メモ注:
- データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
- Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
- 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
-
作成する接続のタイプを選択します。
ここで、[Data generator] (データジェネレーター)を選択します。
- [Add dataset] (データセットを追加)をクリックし、Dataジェネレータープロパティの説明に従ってデータセットプロパティを入力します。
-
[Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付けます。
例
customer generated data -
プロパティを入力して、目的のテスト顧客データを生成します。この例では、単純なLDAPプロトコルを使用しています。
- テストレコードを100件生成したいので、[Rows] (行)フィールドに100を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにfirstnameを入力し、[Type] (タイプ)リストで[First Name] (ファーストネーム)を選択して、空のフィールドを含まないランダムなファーストネームを生成したいので、[Blank %] (空白%)フィールド内に0を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにlastnameを入力し、[Type] (タイプ)リストで[Last Name] (ラストネーム)を選択して、空のフィールドを含まないランダムなラストネームを生成したいので、[Blank %] (空白%)フィールド内に0を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにageを入力し、[Type] (タイプ)リストで[Age] (年齢)を選択して、空のフィールドを含まない18歳から99歳の年齢を生成したいので、[Min] (最小)フィールドに18、[Max] (最大)フィールドに99、[Blank %] (空白%)フィールドに0を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにhair_colorを入力し、[Type] (タイプ)リストで[Random within list] (リスト内のランダム)を選択して、[Blank %] (空白%)フィールド内に0を入力します。作成したいランダムリストにエレメント(ここでは、異なる髪色の値と重み)を追加します。
- 40%の茶髪、20%の金髪、40%の赤髪を含む髪色フィールドを生成したいので、1番目[Element] (エレメント)フィールドにbrown、[Weight] (重み)フィールドに0.4を入力します。2番目の[Element] (エレメント)フィールドにblond、[Weight] (重み)フィールドに0.2を入力します。3番目の[Element] (エレメント)フィールドにred、[Weight] (重み)フィールドに0.4を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにemailを入力し、[Type] (タイプ)リストで[Email] (メールアドレス)を選択して、20%の空の値を含むランダムなメールアドレスを生成したいので、[Blank %] (空白%)フィールド内に20を入力します。
- [Add] (追加)フィールドをクリックし、エレメントの[Name] (名前)フィールドにphoneを入力し、[Type] (タイプ)リストで[Phone number (ext)] (電話番号(内線))を選択して、空の値を含まないランダムな電話番号を生成したいので、[Blank %] (空白%)フィールド内に0を入力します。
- [Validate] (検証)をクリックしてデータセットを保存します。データセット詳細ビューに、定義した条件に対応する生成されたデータが表示されます。
- パイプラインでデスティネーションとして使用されるテストデータセットを2つ追加します。Test接続プロパティの説明に従って、接続のプロパティを入力します。
- [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例
Clean, format & sort customer generated data - [ADD SOURCE] (ソースを追加)をクリックし、パネルが開いたら、customer generated dataというソースデータセットを選択します。
- をクリックし、パイプラインにField concatenatorプロセッサーを追加します。意味のある名前(たとえばconcatenate names)を付け、[Concatenate with value/another field] (値/別のフィールドと連結)関数を使って、firstnameフィールドとlastnameフィールドを連結します。
-
[Save] (保存)をクリックして設定を保存します。
これで、ファーストネームとラストネームがすべて、スペースを区切りとして結合されました。
- をクリックし、パイプラインにData cleansingプロセッサーを追加します。意味のある名前(たとえば、fill empty emails with N/A)を付け、[Fill empty cells with text] (空のセルにテキストを入力)関数を使って、[email] (メールアドレス)の空の値にN/Aテキストを入力します。
-
[Save] (保存)をクリックして設定を保存します。
メールアドレスフィールド内の空の値はすべてN/Aで置換されます。
- をクリックし、パイプラインにPhonesプロセッサーを追加します。意味のある名前(たとえば、format customer phones)を付け、[Format phone number] (電話番号をフォーマット)関数を使って、正しいアメリカ標準構文を使用して、生成された電話番号フィールドをフォーマットします。
-
[Save] (保存)をクリックして設定を保存します。
電話番号の値はすべてフォーマットされるようになりました。
- をクリックし、パイプラインにFilterプロセッサーを追加します。意味のある名前(たとえば、sort customers by age)を付け、35値で[ <= Operator] (<= 演算子)を使って、年齢(35歳以下か以上)に基づいて顧客を分割します。
-
[Save] (保存)をクリックして設定を保存します。
このプレビューでは、定義した条件(35歳以下)と一致するレコードが10件あります。
-
Filterプロセッサーの後にある[ADD DESTINATION] (デスティネーションを追加)ボタンをクリックし、フィルター基準に一致するデータを保存するデータセットを追加および選択します。
必要であれば名前を変更します。
-
Filterプロセッサーでボタンをクリックし、リジェクトデータを保存するデータセットを選択します。
必要であれば名前を変更します。
- Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
- リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、生成された100件のテストフィールドが処理中で、定義したテストデータセットに出力フローが送信されます。ログで、データが35歳以下の顧客と35歳以上の顧客に分割されていることが表示されます。