エントリーをソートする
このシナリオでは、3つのコンポーネントからなるジョブについて説明しています。tRowGeneratorを使って作成されたランダムなエントリーはtSortRowに直接送られ、定義した入力値に従ってソートされます。このシナリオでは、入力フローに営業担当者の名前、売上、勤続年数が含まれていると仮定しています。フィルタリング操作の結果は、[Run] (実行)コンソールに表示されます。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。
-
このユースケースに必要な3つのコンポーネント、tRowGenerator、tSortRow、tLogRowを[Palette] (パレット)からデザインワークスペースにドロップします。
-
[Row] (行) [main] (メイン)リンクを使って、コンポーネントを相互に接続します。
-
tRowGeneratorエディターで、Sortコンポーネントでランダムに使われる値を定義します。この特定のコンポーネントの使用に関する詳細は、tRowGeneratorをご覧ください。
-
このシナリオでは、各営業担当者をそのSales値と勤続年数に従ってランク付けします。
-
tSortRowをダブルクリックして、[Basic settings] (基本設定)タブパネルを表示します。売上の値にソートの優先順位を設定し、第2の基準に勤続年数を設定するために使われます。
-
[+]ボタンを使って、必要な行数を追加します。ソートのタイプを設定するために使われます。この場合、両方の基準は整数で、ソートは数値です。最後に、必要な出力がランク分類であるため、順序を降順に設定します。
-
[Advanced Settings] (詳細設定)タブを表示し、[Sort on disk] (ディスクでソート)チェックボックスをオンにして、一時メモリパラメーターを変更します。[Temp data directory path] (一時データのディレクトリーパス)フィールドで、一時データを保管するディレクトリーへのパスを入力します。[Buffer size of external sort] (外部ソートのバッファーサイズ)フィールドで、処理に割り当てる最大バッファー値を設定するために使われます。
デフォルトのバッファー値は1000000ですが、処理する行やカラムの数が多くなるほど、ジョブが自動停止しないようにするには、値を大きくする必要があります。その場合、メモリ不足を示すエラーメッセージが表示されます。
-
このフローを出力コンポーネントtLogRowに接続していることを確認して、ジョブコンソールに結果を表示します。
-
F6を押してジョブを実行します。ランキングは、第1に売上高、第2に経験年数に基づいています。