tKuduOutput
Apache Spark BatchのtKuduOutputプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtKuduOutputを設定するために使われます。
Spark BatchのtKuduOutputコンポーネントは、データベースファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで利用できます。
基本設定
| プロパティ | 説明 |
|---|---|
| [Use an existing configuration] (既存の設定を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
| [Server connection] (サーバー接続) | [+]ボタンをクリックして、使う必要があるKuduマスターと同じ数の行を追加します。各行はマスター用です。 次に、使うKuduサービスのマスターノードの場所とリスニングポートを入力します。 このコンポーネントは、ClouderaにインストールされたApache Kuduサービスのみをサポートします。 Apache KuduとClouderaの間の互換性情報については、関連するClouderaドキュメント: Apache Kuduの互換性マトリクスを参照してください。 |
| [Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
|
| Kuduバージョン | ドロップダウンリストから、クラスターで使用されるKuduのバージョンを選択します。 |
| [Kudu table] (Kuduテーブル) | 作成、変更、または削除するテーブルの名前を入力します。 |
|
[Action on table] (テーブルでのアクション) |
定義されたテーブルに対して実行する操作を選択します。
|
|
[Action on data] (データでのアクション) |
定義されたテーブルのデータに対して実行する操作を選択します。
|
| [Replicas] (レプリカ) | このテーブルのレプリカファクターを二重引用符なしで入力して、テーブルとそのタブレットのコピーを作成します。 KuduタブレットとKudu複製ポリシーの詳細は、Distribution and Fault Toleranceをご覧ください。 |
| [Hash partitions] (ハッシュパーティション) | Kuduテーブルを作成する時は、このテーブルのパーティション方法を定義することをお勧めします。デフォルトでは、テーブルはパーティショニングされていません。
ランタイムに、行はこれらのバケットの1つにハッシュ値によって分散されます。この [Hash partitions] (ハッシュパーティション)テーブルを空のままにすると、テーブルの作成中にハッシュパーティショニングは適用されません。 Kuduでのハッシュパーティションの詳細は、Hash partitioningをご覧ください。 |
| [Range partitions] (範囲パーティション) | Kuduテーブルを作成する時は、このテーブルのパーティション方法を定義することをお勧めします。デフォルトでは、テーブルはパーティショニングされていません。
ランタイムにこれらのカラムの行は、この[Range partitions] (範囲パーティション)テーブルに追加したカラムの値を使って分散されます。このテーブルを空のままにすると、テーブルの作成中には範囲パーティショニングが適用されません。 Kuduでの範囲パーティションの詳細は、Range partitioningをご覧ください。 |
| [Die on error] (エラー発生時に強制終了) |
このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。 |
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
| 使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 |
| [Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |