メイン コンテンツをスキップする 補完的コンテンツへスキップ

Clouderaでコンテキスト変数を使用

このシナリオでは、異なるClouderaオンプレミスランタイム(7.1.7 Spark 3.2.xと7.1.9 Spark 3.3.x)の間でSparkジョブを実行する場所を選択します。

これは、オンプレミス(7.1.x)とクラウド(7.2.x)のClouderaディストリビューションが混在している場合も該当します。

この機能は、Talend Studioコンテキスト変数機能とQlik Spark Universal 3.3.xディストリビューションモード(Clouderaディストリビューションの最新モード)で有効になります。

始める前に

  • お使いのターゲットディストリビューションがSpark 2、Spark 3、またはその両方と同時に互換性を持つかどうかについては、Clouderaのドキュメンテーションでご確認ください。
  • Cloudera Managerから、使用する各Hadoopサービス(HDFS、Hive、HBaseなど)のクライアント設定をダウンロードします。詳細は、ClouderaのドキュメンテーションでDownloading Client Configuration Filesをご覧ください。

Hadoopクラスターへのメタデータ接続を作成

手順

  1. Talend Studioで、[Metadata] (メタデータ)に移動します。
  2. [Hadoop Cluster] (Hadoopクラスター)を右クリックし、[Create Hadoop Cluster] (Hadoopクラスターの作成)を選択します。
  3. クラスターの名前を入力して[Next] (次へ)をクリックします。
  4. ディストリビューションを選択(この例ではUniversal)し、Sparkモードを選択(この例ではYarn cluster)します。
    ディストリビューションの選択。

Hadoop設定をインポート

手順

  1. [Import configuration from local files] (ローカルファイルから設定をインポート)を選択し、[Next] (次へ)をクリックします。
  2. クライアント設定の場所を指定し、[Finish] (終了)をクリックします。
    クライアント設定の場所。
  3. [Update connection parameters] (接続パラメーターをアップデート)タブには、デフォルトのパラメーターが既に入力されています。
    ただし、必要に応じて次のいずれかの操作を実行できます:
    • [Use a key tab to authenticate] (キータブを使って認証)を選択し、Hadoopクラスターで認証する。
    • [Use custom classpath] (カスタムクラスパスを使用)を選択し、実行するClouderaクラスパスを定義する。この場合は、Spark 2ライブラリーかSpark 3ライブラリーを指定します。
    [Update connection parameters] (接続パラメーターをアップデート)タブ。

メタデータ接続をコンテキスト依存化

コンテキスト値を使えば、1つのクラスターを異なるパラメーターで使用できます。

手順

  1. ウィザードでメタデータ接続を作成する場合は、[Export as context] (コンテキストとしてエクスポート)をクリックします。
  2. 開いた[Create/Reuse context] (コンテキストを作成/再利用)ウィザードで、[Create a new repository context] (新しいリポジトリーコンテキストを作成)を選択してから[Next] (次へ)をクリックします。
  3. 作成するコンテキストの名前を入力し、必要であれば一般情報を追加します。

    メタデータエントリーの名前はウィザードによってコンテキスト名として提示されます。リポジトリーのコンテキストの上にマウスを移動すると、[Description] (説明)フィールドに入力した情報がツールチップとして表示されます。

  4. [Next] (次へ)をクリックし、コンテキストを作成して表示します。
  5. [Manage environments] (環境を管理)をクリックし、環境を必要な個数だけ作成して、デフォルトの環境を選択します。

    この例では、[Create] (作成)をクリックしてSpark 2とSpark 3の環境を追加します。

    環境の作成。
  6. [Finish] (終了)をクリックします。
  7. Sparkジョブで、ジョブを実行したいコンテキスト変数を選択します。

タスクの結果

異なるClouderaランタイムでジョブを実行できるようになりました。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。