Apache Spark BatchのtKuduOutputプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtKuduOutputを設定するために使われます。
Spark BatchのtKuduOutputコンポーネントは、データベースファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。
基本設定
[Use an existing configuration] (既存の設定を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
[Server connection] (サーバー接続) |
[+]ボタンをクリックして、使う必要があるKuduマスターと同じ数の行を追加します。各行はマスター用です。 次に、使うKuduサービスのマスターノードの場所とリスニングポートを入力します。 このコンポーネントは、ClouderaにインストールされたApache Kuduサービスのみをサポートします。 Apache KuduとClouderaの間の互換性情報については、Clouderaの関連ドキュメンテーション(Compatibility Matrix for Apache Kudu (英語のみ))をご覧ください。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。
|
情報メモ注: Kuduテーブルのスキーマは、1つ以上のカラムで構成されるプライマリキーを宣言する必要があります。これらのカラムはNULL不可である必要があり、ブール型、浮動小数点型、または倍精度型であってはなりません。
スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
|
[Kudu table] (Kuduテーブル) |
作成、変更、または削除するテーブルの名前を入力します。 |
[Action on table] (テーブルでのアクション) |
定義されたテーブルに対して実行する操作を選択します。
|
[Action on data] (データでのアクション) |
定義されたテーブルのデータに対して実行する操作を選択します。
|
[Replicas] (レプリカ) |
このテーブルのレプリカファクターを二重引用符なしで入力して、テーブルとそのタブレットのコピーを作成します。 KuduタブレットとKudu複製ポリシーの詳細は、Distribution and Fault Tolerance (英語のみ)をご覧ください。 |
[Hash partitions] (ハッシュパーティション) |
Kuduテーブルを作成する時は、このテーブルのパーティション方法を定義することをお勧めします。デフォルトでは、テーブルはパーティショニングされていません。
ランタイムに、行はこれらのバケットの1つにハッシュ値によって分散されます。この [Hash partitions] (ハッシュパーティション)テーブルを空のままにすると、テーブルの作成中にハッシュパーティショニングは適用されません。 Kuduでのハッシュパーティションの詳細は、Hash partitioning (英語のみ)をご覧ください。 |
[Range partitions] (範囲パーティション) |
Kuduテーブルを作成する時は、このテーブルのパーティション方法を定義することをお勧めします。デフォルトでは、テーブルはパーティショニングされていません。
ランタイムにこれらのカラムの行は、この[Range partitions] (範囲パーティション)テーブルに追加したカラムの値を使って分散されます。このテーブルを空のままにすると、テーブルの作成中には範囲パーティショニングが適用されません。 Kuduでのハッシュパーティションの詳細は、Range partitioning (英語のみ)をご覧ください。 |
[Die on error] (エラー発生時に強制終了) |
このチェックボックスを選択すると、エラー発生時にジョブの実行が停止されます。 |
使用方法
使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |