このページ上

メインコンテンツをスキップする

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

Clouderaでコンテキスト変数を使用

このシナリオでは、異なるClouderaオンプレミスランタイム(7.1.7 Spark 3.2.xと7.1.9 Spark 3.3.x)の間でSparkジョブを実行する場所を選択します。

これは、オンプレミス(7.1.x)とクラウド(7.2.x)のClouderaディストリビューションが混在している場合も該当します。

この機能は、Talend Studioコンテキスト変数機能とQlik Spark Universal 3.3.xディストリビューションモード(Clouderaディストリビューションの最新モード)で有効になります。

お使いのターゲットディストリビューションがSpark 2、Spark 3、またはその両方と同時に互換性を持つかどうかについては、Clouderaのドキュメンテーション (英語のみ)でご確認ください。
Cloudera Managerから、使用する各Hadoopサービス(HDFS、Hive、HBaseなど)のクライアント設定をダウンロードします。詳細は、ClouderaのドキュメンテーションでDownloading Client Configuration Files (英語のみ)をご覧ください。

Talend Studioで、[Metadata] (メタデータ)に移動します。
[Hadoop Cluster] (Hadoopクラスター)を右クリックし、[Create Hadoop cluster] (Hadoopクラスターを作成)を選択します。
クラスターの名前を入力して[Next] (次へ)をクリックします。
ディストリビューションを選択(この例ではUniversal)し、Sparkモードを選択(この例ではYarn cluster)します。

[Import configuration from local files] (ローカルファイルから設定をインポート)を選択し、[Next] (次へ)をクリックします。
クライアント設定の場所を指定し、[Finish] (終了)をクリックします。
[Update connection parameters] (接続パラメーターをアップデート)タブには、デフォルトのパラメーターが既に入力されています。
ただし、必要に応じて次のいずれかの操作を実行できます:
- [Use a key tab to authenticate] (キータブを使って認証)を選択し、Hadoopクラスターで認証する。
- [Use custom classpath] (カスタムクラスパスを使用)を選択し、実行するClouderaクラスパスを定義する。この場合は、Spark 2ライブラリーかSpark 3ライブラリーを指定します。

コンテキスト値を使えば、1つのクラスターを異なるパラメーターで使用できます。

ウィザードでメタデータ接続を作成する場合は、[Export as context] (コンテキストとしてエクスポート)をクリックします。
開いた[Create/Reuse context] (コンテキストを作成/再利用)ウィザードで、[Create a new repository context] (新しいリポジトリーコンテキストを作成)を選択してから[Next] (次へ)をクリックします。
作成するコンテキストの名前を入力し、必要であれば一般情報を追加します。

メタデータエントリーの名前はウィザードによってコンテキスト名として提示されます。リポジトリーのコンテキストの上にマウスを移動すると、[Description] (説明)フィールドに入力した情報がツールチップとして表示されます。
[Next] (次へ)をクリックし、コンテキストを作成して表示します。
[Manage environments] (環境を管理)をクリックし、環境を必要な個数だけ作成して、デフォルトの環境を選択します。

この例では、[Create] (作成)をクリックしてSpark 2とSpark 3の環境を追加します。
[Finish] (終了)をクリックします。
Sparkジョブで、ジョブを実行したいコンテキスト変数を選択します。

異なるClouderaランタイムでジョブを実行できるようになりました。

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。