ビッグデータジョブの来歴を有効化
Atlasを使ってデータ来歴を設定
Apache Atlasに対するサポートがTalend Sparkジョブに追加されました。
ジョブの実行にHortonworks Data Platform V2.4以降を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがSparkジョブによってどう生成されたかを確認できます。ClouderaクラスターにApache Atlasがインストールされており、CDP Private Cloud BaseまたはCDP Public Cloudを使って自分のジョブを実行している場合は、ジョブの実行でAtlasを使うこともできます。
- Hortonworks Data Platform V2.4の場合、Talend StudioによるサポートはAtlas 0.5のみになります。
- Hortonworks Data Platform V2.5の場合、Talend StudioによるサポートはAtlas 0.7のみになります。
- Hortonworks Data Platform V3.14の場合、Talend StudioによるサポートはAtlas 1.1のみになります。
たとえば以下のSpark Batchジョブをデザインし、そこでAtlas内にそれに関する来歴情報を生成するとします。
このジョブでは、入力データの生成にtRowGeneratorを使用し、データ処理にtMapとtSortRowを使用し、データを別の形式に出力するのに他のコンポーネントを使用します。
- [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックします。
- [Distribution] (ディストリビューション)リストと[Version] (バージョン)リストからHortonworksディストリビューションを選択します。[Use Atlas] (Atlasを使用)チェックボックスが表示されます。
このオプションを有効にしたら、以下のパラメーターを設定する必要があります。
-
Atlas URL: Atlasの接続先を入力します。http://name_of_your_atlas_node:portとなる場合がほとんどです。
-
[Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。
-
Atlas設定フォルダーの設定: AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスを選択し、表示されるフィールドにローカルマシンのディレクトリーを入力し、このディレクトリーにAtlasのatlas-application.propertiesファイルを入れます。こうすることでジョブが有効になり、これらのカスタムプロパティを利用できるようになります。
この設定ファイルは、クラスターの管理者に尋ねる必要があります。このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションをご覧ください。
- [Die on error] (エラー発生時に強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止する場合は、このチェックボックスを選択します。それ以外の場合は、解除してジョブが実行を継続できるようにしてください。
-
この時点までに、Atlasへの接続がセットアップ済みとなっています。このジョブを実行する時は、Atlas内に来歴が自動的に生成されています。
ジョブを正しく実行するには、[Spark configuration] (Spark設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Spark Batchジョブを作成をご覧ください。
ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。
Atlas来歴を読み取る
-
-
ジョブ自体。
-
tRowGeneratorまたはtSortRowなど、データスキーマを使用するジョブ内のコンポーネント。tHDFSConfigurationなどの接続または設定コンポーネントはスキーマを使用しないため、これらは考慮されません。
-
-
Talend: ジョブによって生成されたすべてのエンティティに。
-
TalendComponent: すべてのコンポーネントエンティティに。
-
TalendJob: すべてのジョブエンティティに。
Atlasでこれらのタグの1つを直接クリックすれば、対応するエンティティが表示されます。