メイン コンテンツをスキップする 補完的コンテンツへスキップ

Kerberosで保護されたHiveデータセットのHDFSへのエクスポート

Kerberos Cloudera環境へのHiveデータセットのエクスポートを有効にする場合は、Spark Job Serverの設定ファイルを編集する必要があります。

情報メモ重要: クラスターにあるどのワーカーからもHDFSへの認証に使用するkeytabファイルにアクセスできることをご確認ください。

手順

  1. <sjs_path>/jobserver_gss.confファイルを作成し、次の設定パラメーターを追加します:
    com.sun.security.jgss.initiate {
    com.sun.security.auth.module.Krb5LoginModule required
    useTicketCache=false
    doNotPrompt=true
    useKeyTab=true
    keyTab="/path/to/the/keytab/keytab_file.keytab"
    principal="your@principalHere"
    debug=true;
    };
  2. <sjs_path>/manager_start.shファイルでこれらのパラメータを次の値で設定し、先ほど作成した <sjs_path>/jobserver_gss.confファイルを参照します:
    KRB5_OPTS="-Djava.security.auth.login.config=jobserver_gss.conf
     -Djava.security.krb5.debug=true
     -Djava.security.krb5.conf=/path/to/krb5.conf
     -Djavax.security.auth.useSubjectCredsOnly=false"
     --conf "spark.executor.extraJavaOptions=$LOGGING_OPTS $KRB5_OPTS"
     --conf "spark.yarn.dist.files=/path/to/jobserver_gss.conf"
     --proxy-user $4
     --driver-java-options "$GC_OPTS $JAVA_OPTS $LOGGING_OPTS $CONFIG_OVERRIDES $JDBC_PROPERTIES $KRB5_OPTS"
  3. Talend Data Preparationでデータセットをインポートする場合、Hiveへの接続に使用するJDBC URLは次のモデルに従う必要があります:
    jdbc:hive2://host:10000/default;principal=<your_principal>
  4. Hiveドライバーが含まれている<components_catalog_path>/config/jdbc_config.jsonファイルをSpark Job Serverのインストールフォルダーにコピーします。
  5. <components_catalog_path>/.m2フォルダーから<sjs_path>/datastreams-depsフォルダーに.jarファイルをコピーします。

タスクの結果

以上で、HiveデータセットをHDFSにエクスポートできるようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。