Apache Spark StreamingのtHBaseConfigurationプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtHBaseConfigurationを設定するために使われます。
Spark StreamingのtHBaseConfigurationコンポーネントは、ストレージファミリーとデータベースファミリーに属しています。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Property type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。 [Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。 [Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。 |
[Distribution] (ディストリビューション) |
ドロップダウンリストから、使用するクラスターを選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
|
[HBase version] (HBaseバージョン) |
使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。 |
[Zookeeper quorum] (Zookeeperクォーラム) |
Studioとデータベース間のトランザクションを調整するZookeeperサービスの名前またはURLを入力します。Zookeeperを設定する時に、zookeeper.znode.parentプロパティを明示的に設定して、作成されてデータベースで使用されているすべてのznodeを含むルートznodeへのパスを定義しなければならない場合があります。次に、[Set Zookeeper znode parent] (親Zookeeper znodeを設定)チェックボックスをオンにして、このプロパティを定義します。 |
[Zookeeper client port] (Zookeeperクライアントポート) |
使用しているZookeeperサービスのクライアントリスニングポートの数を指定します。 |
[Use Kerberos authentication] (Kerberos認証を使用) |
使用するデータベースでKerberosセキュリティを実行する場合は、このチェックボックスをオンにし、表示されたフィールドにプリンシパル名を入力します。この情報は、使用するクラスターのhbase-site.xmlファイルの中にあります。
ログインにKerberosのkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使用)チェックボックスをオンにします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。 keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。 |
[HBase parameters] (HBaseパラメーター) |
データベースにカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。カスタマイズされたプロパティは、ランタイムに、Studioによって使用される対応するプロパティを上書きします。 |
使用方法
使用ルール |
このコンポーネントは、他のコンポーネントに接続せずに使用されます。 設定がランタイムにジョブ全体で使われるように、tHBaseConfigurationと共に、実行するHBase関連のサブジョブを同じジョブにドロップする必要があります。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。 |
前提条件 |
始める前に、データベースで想定されているループバックIPの前提条件を満たしていることをご確認ください。 Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |