コンポーネントをリンク

手順

Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
Spark Batchジョブの作成方法は、Talend Big Data入門ガイドをご覧ください。
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントは、tHDFSConfiguration、2つのtFixedFlowInputコンポーネント(ラベル1はcustomer_baseに、もう1つはweb_dataに)、tSqlRow、tCacheOut、tCacheIn、tMap、tExtractDelimitedFields、tAggregateRow、tTop、およびtLogRowです。
tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使用されます。現実のケースではtFixedFlowInputの代わりにtMysqlInputやtMapといった他のコンポーネントを使って処理するデータを準備する、より洗練されたプロセスを設計できます。
[Row] (行) > [Main] (メイン)リンクを使って、customer_base (tFixedFlowInput)、tSqlRow、tCacheOutを接続します。このサブジョブでは、シルバーレベルの顧客に関するレコードが選択され、キャッシュに保管されます。
[Row] (行) > [Main] (メイン)リンクを使って、web_data (tFixedFlowInput)をtMapに接続します。これは、tMapコンポーネントへの主な入力フローです。
同じ手順で、tCacheInをtMapに接続します。これはtMapへのルックアップフローです。
[Row] (行) > [Main] (メイン)リンクを使ってtMapをtExtractDelimitedFieldsに接続し、表示されるダイアログボックスでこの接続に名前を付けます。たとえば、outputという名前を付けます。
[Row] (行) > [Main] (メイン)リンクを使って、tExtractDelimitedFields、tAggregateRow、tTop、tLogRowを接続します。
[Trigger] (トリガー) > OnSubjobOkリンクを使って、customer_baseをweb_dataに接続します。
tHDFSConfigurationコンポーネントは、接続しないでおきます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください