Apache Spark BatchのtPartitionプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtPartitionを設定するために使われます。
Spark BatchのtPartitionコンポーネントは、変換処理ファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 |
[Number of partitions] (パーティションの数) |
入力データセットを分割するパーティション数を入力します。 |
[Repartition by range] (範囲ごとに再パーティショニング) |
このチェックボックスを選択して、データセットを複数のパーティションに分割します。詳細は、の公式Sparkドキュメンテーションをご覧ください。 このオプションは、データセットモードでのみ使用できます。 情報メモ注: tPartitionコンポーネントは、以下の時にのみSpark Dataset APIをサポートします:
|
[Use coalesce] (融合を使用) |
このチェックボックスを選択して、返されるパーティション数を減らします。詳細は、の公式Sparkドキュメンテーションをご覧ください。 このオプションは、データセットモードでのみ使用できます。 情報メモ注: tPartitionコンポーネントは、以下の時にのみSpark Dataset APIをサポートします:
|
[Partition key] (パーティションキー) |
このテーブルに入力して、パーティショニングに使うキーを定義します。 [Partition key] (パーティションキー)テーブルで、スキーマのカラムが[Column] (カラム)カラムに自動的に追加されます。[Partition column] (パーティションカラム)カラムでは、パーティショニングのキーとして使うカラムに対応するチェックボックスをオンにする必要があります。 このパーティショニングはハッシュモードで行われます。つまり、同じ基準(キー)を満たすレコードが同じパーティションに転送されます。 |
[Use custom partitioner] (カスタムパーティショナーを使用) |
Talend Studio外からインポートする必要があるSparkパーティショナーを使う場合は、このチェックボックスをオンにします。たとえば、自分で開発したパーティショナーです。この状況では、次の情報を提供する必要があります。
|
[Sort within partitions] (パーティション内でソート) |
各パーティションでレコードをソートする場合は、このチェックボックスをオンにします。 この機能は、パーティションに複数の異なるキー値が含まれている場合に役立ちます。
|
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |