Apache Spark StreamingのtHiveConfigurationプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtHiveConfigurationを設定するために使われます。
Spark StreamingのtHiveConfigurationコンポーネントは、ストレージファミリーに属しています。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Distribution] (ディストリビューション)と[Version] (バージョン) |
Hive用に使用しているHadoopディストリビューションを選択します。 Sparkに必要とされるHiveのバージョンは0.13以上です。 使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。 |
[Hive thrift metastore] (Hive thriftメタストア) |
[Host] (ホスト)の名前とリッスンしている[Port] (ポート)の数を指定することで、使用するHiveシステムのメタストアのロケーションを入力します。このHiveシステムにHAメタストアが定義されている場合は、[Enable high availability] (高可用性の有効化)チェックボックスをオンにして、表示されるフィールドに複数のリモートメタストアサービスのURIを入力し、それぞれをコンマ(、)で区切ります。 |
Kerberos認証を使用 |
Keroberosセキュリティを実行しているHiveメタストアにアクセスする場合は、このチェックボックスをオンにします。 次に、使用するクラスターのhive-site.xmlファイルで定義済みのHiveのプリンシパルを入力します。 [Hive principal] (Hiveプリンシパル)はhive.metastore.kerberos.principalの値を使用します。これはHiveメタストアのサービスプリンシパルです。 |
[Force MapR Ticket authentication] (MapRチケット認証の強制) |
このクラスターが5.0.0バージョン以上のMapRクラスターである場合は、「セキュリティ対応MapRへの接続」の説明に従って、MapRチケット認証設定を追加または代替として設定できます。https://help.talend.com/ja-JP/components/7.3/mapr/connecting-to-security-enabled-mapr この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] (MapRチケット認証を強制)チェックボックスと[Use Kerberos authentication] (Kerberos認証を使用)チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。 |
使用方法
使用ルール |
このコンポーネントは、他のコンポーネントに接続せずに使用されます。 設定がランタイムにジョブ全体で使われるように、tHiveConfigurationと共に、実行するHive関連のサブジョブを同じジョブにドロップする必要があります。 このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |