Talend StudioにおけるHadoopディストリビューションのダイナミックサポート(非推奨)
組み込みディストリビューションまたはダイナミックディストリビューション(Cloudera、Hortonworks、Amazon EMR、Azure Synapse、Databricks、Microsoft HDInsightなど)から移行する場合、Talendは、ビッグデータのディストリビューションとジョブでSpark Universalディストリビューションを有効にすることを強くお勧めします。
Spark Universalへのビッグデータディストリビューションの大量移行を容易にするため、[Migrate Distribution to...] (ディストリビューションの移行先...)機能を使用すれば、ビッグデータメタデータ接続ディストリビューションの移行を部分的に自動化できます。詳細は、Hadoopディストリビューションを移行をご覧ください。
Talend Studioで、使用したいビッグデータプラットフォームのサポートがない場合は、このディストリビューションを追加し、Talend Studioで使用できるようにします。
このダイナミックサポート機能により、Talend Studioのリリース時にはまだリリースされていなかったClouderaやHortonworksのバージョンを使用する際の俊敏性と柔軟性が向上します。何回かクリックしてこのバージョンを追加するだけで準備は完了します。
最新のビッグデータプラットフォームをダイナミックに追加(ダイナミックディストリビューション) (非推奨)
この手順では、ClouderaとHortonworksのディストリビューションのみ追加できます。この手順では、Clouderaを使用してダイナミックディストリビューションをTalend Studioに追加する方法を説明します。
- ディストリビューションのバージョンリストに、[Builtin] (組み込み)というラベルの付いたバージョンがいくつかあります。リリース時に、これらのバージョンがダイナミックディストリビューションメカニズムを使用してTalendによって追加され、Talend Studioと共に提供されました。これらはTalendによって認定され公式にサポートされているので、すぐに使用できます。
手順
タスクの結果
-
このダイナミックディストリビューションへの接続を[Repository] (リポジトリー)で設定し、Talendジョブでこの接続を再利用する。
- このダイナミックディストリビューションをジョブで直接使用する。ジョブをビルドしてZip内に実行可能ファイルを生成し、実行可能ファイルをWindowsで実行する必要がある場合は、.batスクリプトを使用せず、.ps1スクリプトを使用します。
ジョブをエクスポートする場合は通常、[Repository] (リポジトリー)で定義した接続などの依存項目と共にエクスポートできますが、ダイナミックディストリビューションへの接続を同様にエクスポートすることはできません。詳細は、ダイナミックビッグデータプラットフォームディストリビューションの設定をエクスポートまたはインポートをご覧ください。
ダイナミックディストリビューション設定を編集(非推奨)
ダイナミックビッグデータプラットフォームディストリビューションがTalend Studioに追加されると、設定を容易に編集できるようになります。
カスタムJARファイルを必要とするカスタマイズされたディストリビューションを使用する必要がある場合や、ダイナミック設定をデバッグする必要がある場合に、これは特に有用です。
前述の内容から推察されるように、以下に説明する手順は、最新のビッグデータプラットフォームをダイナミックに追加(ダイナミックディストリビューション)に説明されている方法で追加されたビッグデータプラットフォームディストリビューションにのみ該当します。
始める前に
ディストリビューションに関する知識が十分にあり、設定に施す変更の意味を理解できること。
手順
タスクの結果
Talend Studioでカスタムディストリビューションを使用できるようになりました。
ダイナミックビッグデータプラットフォームディストリビューションの設定をエクスポートまたはインポート(非推奨)
ダイナミックビッグデータプラットフォームディストリビューションの設定は、それを使用するジョブでのエクスポートやインポートはできないものの、[Project settings] (プロジェクト設定)ダイアログボックスの[Dynamic distribution setup] (ダイナミックディストリビューションの設定)ビューを使うことでエクスポートやインポートが可能です。
前述の内容から推察されるように、以下に説明する手順は、新のビッグデータプラットフォームをダイナミックに追加する手順で説明されている方法で追加されたビッグデータプラットフォームディストリビューションにのみ該当します。
手順
- Integrationパースペクティブで、をクリックして[Project settings] (プロジェクト設定)ダイアログボックスを開きます。
- [General] (全般)ノードを展開し、[Dynamic distribution settings] (ダイナミックディストリビューションの設定)をクリックしてビューを開きます。
-
[Dynamic distribution setup] (ダイナミックディストリビューションの設定)ボタンをクリックしてダイナミックディストリビューション設定ウィザードを開きます。
オプション 説明 [Edit an existing dynamic configuration] (既存のダイナミック設定を編集)
このラジオボタンを使って、ダイナミックディストリビューションをエクスポートします。
このラジオボタンを選択すると、[Version] (バージョン)リストが有効になります。
次に、このリストからエクスポートするディストリビューションを選択し、[Next] (次へ)をクリックしてこのディストリビューションの詳細ビューを開きます。このビューで[Export configuration] (設定をエクスポート)ボタンをクリックして設定をJSONファイルにエクスポートします。
[Import dynamic configuration] (ダイナミック設定をインポート)
このラジオボタンを使用して、ダイナミックディストリビューションをインポートします。
このラジオボタンを選択したら、有効になった[...]ボタンをクリックします。
次に、インポートするダイナミックディストリビューションの設定情報を含むJSONファイルを参照します。
このJSONファイルは、多くの場合、別のTalend Studioインスタンスからエクスポートされて使用されます。手動で作成したJSONファイルを使用する場合は、使用するJSONスキーマがエクスポートされたJSONファイルのスキーマと同じになっていることをご確認ください。
- [Finish] (終了)をもう一度クリックして[Dynamic distribution setup] (ダイナミックディストリビューションの設定)ウィザードを閉じます。
- ダイナミックディストリビューションをインポートする場合、インポートされるディストリビューションは[Project settings] (プロジェクト設定)ダイアログボックスの[Dynamic distribution settings] (ダイナミックディストリビューションの設定)ビューの[Version] (バージョン)ドロップダウンリストに表示されます。次に[Apply] (適用)、次にOKをクリックして新しい設定を確認し、[Project settings] (プロジェクト設定)ダイアログボックスを閉じます。