メイン コンテンツをスキップする 補完的コンテンツへスキップ

入力データフローの分割

このリンクの終端では、Talend Studioにより分割済みスレッドを自動的に集める収集ステップが実行されます。

入力フローを設定

Procedure

  1. tFileInputDelimitedをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
    コンポーネントの[基本設定]ビュー。
  2. [File name/Stream] (ファイル名/ストリーム)フィールドで、読み出す顧客レコードを格納しているファイルへのパスまで移動するか、そのパスを入力します。
  3. 3点ボタンをクリックしてスキーマエディターを開き、ここで顧客データストラクチャーを反映するスキーマを作成する必要があります。
    [スキーマ]エディター。
  4. [Add] (追加)ボタンを5回クリックして5行追加し、FirstNameLastNameCityAddressZipCodeと名前を変更します。
    このシナリオでは、データ型は、デフォルト値の[String] (文字列)のままにしておきます。実際の業務では、処理するデータのデータ型に合わせて変更します。
  5. OKをクリックしてこれらの変更を確定し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  6. 必要であれば、処理データに対応する値を[Component] (コンポーネント)ビューの他のフィールドにも入力します。このシナリオでは、これらについてもそのままにしておきます。

分割ステップの設定

Procedure

  1. 分割ステップを表すリンクをクリックして、[Component] (コンポーネント)ビューを開き、[Parallelization] (並列化)タブをクリックします。
    [並列化]ビュー。
    [Partition row]オプションは、[Type] (タイプ)エリアで自動的に選択されています。[None] (なし)オプションを選択すると、このリンクで処理するデータフローの並列化が無効になります。設定するリンクによっては、[Repartition row] (パーテーション行)オプションが[Type] (タイプ)エリアで利用可能となり、既に分割解除されているデータフローを再パーティショニングできます。
    この[Parallelization] (並列化)ビューでは、次のプロパティを定義する必要があります。
    • [Number of Child Threads] (子スレッドの数): 入力レコードを複数スレッドに分割する場合のスレッド数。この数字はN-1にすることを推奨します。ここで、Nはデータを処理するマシンのCPU数またはコア数を表します。
    • [Buffer Size] (バッファーサイズ): 生成された各スレッドでキャッシュする行数。
    • [Use a key hash for partitions] (分割用にキーハッシュを使用): これによりハッシュモードを使って入力レコードをスレッドに転送できます。

      これを選択すると、[Key Columns] (キーカラム)テーブルが表示されるため、ハッシュモードを適用するカラムをこのテーブルに設定します。ハッシュモードでは、同じ条件を満たすレコードが同じスレッドに転送されます。

      このチェックボックスをオフにすると、転送モードは総当たり方式となり、レコードはローテーションで1件ずつ処理されて各スレッドに転送され、最後のレコードが転送されるまで続きます。このモードでは、同じ条件を満たすレコードが必ずしも同じスレッドに入らないことにご注意ください。

  2. [Number of Child Threads] (子スレッドの数)フィールドに、データフローをいくつのスレッドに分割するかを表すスレッド数を入力します。この例では、ジョブを実行するのに4個のプロセッサーを使用しているため、3を入力します。
  3. 必要であれば、メモリ容量に合わせて[Buffer Size] (バッファーサイズ)フィールドの値を変更します。この例では、デフォルトのままにしておきます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。