Cloudera Navigatorでデータ来歴を定義
Apache Spark Batchジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。
この来歴には、コンポーネント間でのこのジョブとスキーマの変更に使用されたコンポーネントが含まれています。
このタイプのジョブは、ビッグデータ対応のTalend製品のいずれかまたはTalend Data Fabricにサブスクライブしている場合にだけ使用できます。
手順
このオプションを有効にしたら、以下のパラメーターを設定する必要があります。
-
[Username] (ユーザー名)および[Password] (パスワード): Cloudera Navigatorへの接続に使用する認証情報です。
-
Cloudera Navigator URL: Cloudera Navigatorの接続先を入力します。
-
[Cloudera Navigator Metadata URL] (Cloudera NavigatorメタデータURL): ナビゲーターメタデータの場所を入力します。
-
[Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するよう設定する場合は、このチェックボックスを選択します。
このオプションを指定すると、Cloudera NavigatorはHDFSファイルとディレクトリー、HiveクエリーまたはPigスクリプトなど、利用可能なすべてのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。
-
[Kill the Job if Cloudera Navigator fails] (Cloudera Navigatorにエラーが発生したらジョブを強制終了): このチェックボックスを選択して、Cloudera Navigatorへの接続が失敗した時にジョブの実行を停止します。
それ以外の場合は、解除してジョブが実行を継続できるようにしてください。
-
Disable SSL validation (SSL認証を無効化): SSL認証プロセスを経ずにCloudera Navigatorに接続することをジョブに指示する場合は、このチェックボックスを選択します。
この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。
タスクの結果
このジョブを実行する時は、Cloudera Navigator内に来歴が自動的に生成されています。
ジョブの実行が完了したら、このジョブによって書かれたデータをCloudera Navigatorで検索し、Cloudera Navigatorでこのデータの来歴を確認します。