EMRにサーバー側のKMS暗号化データを書き込む
AWS SSE-KMS暗号化(保存時の暗号化)サービスが有効で、EMRクラスターのS3Aシステム上のデータを保護するように[Default encryption] (デフォルトの暗号化)を設定する場合は、そのS3Aシステムにデータを書き込む時にtS3ConfigurationでSSE-KMSオプションを選択します。
このシナリオで使うサンプルデータは、人々が1日以内にパリの通りで発生したと報告したさまざまなタイプのインシデントに関するものです。 サンプルデータはあくまでも例示を目的とするものです。
1;226 rue marcadet, 75018 Paris;abandoned object;garbage on the street
2;2 rue marcadet, 75018 Paris;shift and damage;direction sign damaged
3;45 boulevard de la villette, 75010 Paris; abandoned object; suspicious package
4;10 rue emile lepeu, 75011 Paris;graffiti and improper poster;graffiti
5;27 avenue emile zola, 75015 Paris;shift and damage;deformed road
ジョブは、各インシデントタイプの出現を計算します。
前提条件:
- 使用するS3システムはS3Aです。
- AWS上のSSE-KMS暗号化サービスが[Default encryption] (デフォルト暗号化)機能で有効化され、顧客管理のCMKが指定されていること。
- 使うEMRクラスターがSSE-KMSで作成され、EMR_EC2_DefaultRoleロールが上記CMKに追加されていること。
- EMRクラスターの管理者が、ジョブで使っているAWSアカウントに適切な権限とアクセス許可を付与していること。
- EMRクラスターが適切に設定され、実行されていること。
- Talend JobServerが、クラスターのマスターのインスタンスなど、EMRクラスターのネットワーク内のインスタンスにデプロイされていること。
これらの操作はすべてAWS側で行われます。
- Talend StudioまたはTalend Administration Centerで 、このTalend JobServerをジョブの実行サーバーとして定義します。
Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリーをクライアントマシンのhostsファイルに追加します。
Talendジョブを使って実行されるよう初めてEMRクラスターを設定する場合は、Amazon EMR - Getting Startedをご覧ください。