Apache Spark BatchのtS3Configurationプロパティ
これらのプロパティは、[Spark Batch]ジョブのフレームワークで実行されているtS3Configurationを設定するために使われます。
Spark BatchのtS3Configurationコンポーネントは、ストレージファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Access Key] (アクセスキー) |
AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、http://docs.aws.amazon.com/ses/latest/DeveloperGuide/get-aws-keys.htmlGetting Your AWS Access Keysをご覧ください。 |
[Secret Key] (シークレットキー) |
シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。 シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。 |
[Hadoop S3 version] (Hadoop S3バージョン) | 使用しているHadoopバージョンをドロップダウンリストから選択します。 クラスターにS3ライブラリーがある場合は、[Use cluster's libraries] (クラスターのライブラリーを使用)を選択し、一致していない依存項目をアップロードして競合を回避します。クラスターにS3ライブラリーがない場合は、そのクラスターのHadoopライブラリーと一致するバージョンを選択します。 このパラメーターは、Spark UniversalでSparkジョブがDatabricksモード、[Local] (ローカル)モード、[Standalone] (スタンドアロン)モードによって実行されている場合は使用できません。 |
[Use EMRFS consistent view] (EMRFS整合性ビューの使用) | このチェックボックスを選択すると、EMRファイルシステム(EMRFS)の整合性ビューを利用できます。このオプションによってEMRクラスターは、EMRFSによって書き込まれたりEMRFSと同期したAmazon S3オブジェクトのリストや書き込み後の読み取り整合性をチェックできるようになります。 情報メモ注: 整合性のないエラーが発生することがあるため、単一のバケットでは整合性ビューを切り替えないようにしてください。この問題が発生した場合は、EMRFS CLIでsyncコマンドを使えば不整合性を修正できます。詳細は、[EMRFS CLI Reference] (EMRFS CLI リファレンス)をご覧ください。
この機能はAmazon EMR 5.29ディストリビューションの使用時に利用できます。 |
[EMRFS metadata table] (EMRFSメタデータテーブル) | 使用するメタデータDynamoDBテーブルの名前を入力します。 情報メモ注: デフォルトのメタデータテーブル名はEmrFSMetadataです。
このフィールドは、[Use EMRFS consistent view] (EMRFS整合性ビューを使用)チェックボックスをオンにした場合にのみ使用できます。 |
[Bucket name] (バケット名) |
使用するバケットの名前とそのフォルダーを入力します。バケット名とフォルダー名はスラッシュ( / )で区切ってください。 |
[Temp folder] (一時フォルダー) |
S3の一時フォルダーの場所を入力します。このフォルダーは、実行時にまだなかった場合は自動的に作成されます。 |
[Inherit credentials from AWS] (AWSから認証情報を継承) | お使いのIAMロールからAWSセキュリティ認証情報を取得する場合は、このチェックボックスを選択します。このオプションはAmazon EMRクラスターとDatabricks on AWSクラスターで使用できます。このオプションを使用する場合は、クラスターを開始し、そのクラスターでジョブを実行する必要があります。詳細は、 Using an IAM Role to Grant Permissions to Applications Running on Amazon EC2 Instancesをご覧ください。 このオプションを使用すると、ジョブにAWSキーを配置せずにジョブを開発できるため、組織のセキュリティポリシーに簡単に準拠できます。 |
[Use SSE encryption] (SSE暗号化を使用) | このチェックボックスを選択すると、AWSで有効になっているSSE-KMS暗号化サービスを使って、暗号化済みデータの読み取りまたは書き込みをS3で行うことができます。 EMR側では、デフォルトの暗号化機能を伴うSSE-KMSサービスが有効になっており、暗号化用に顧客管理CMKが指定されていることが必要です。 サーバー側の暗号化は、AWSのドキュメンテーションでProtecting Data Using Server-Side Encryptionをご覧ください。 Amazon S3バケットでデフォルトの暗号化機能を有効にする詳しい方法は、AWSドキュメンテーションでデフォルトの暗号化をご覧ください。 このプロパティは、Amazon EMRディストリビューションを使用している場合のみ利用できます。 |
[Bucket encryption] (バケット暗号化) |
ドロップダウンリストから、バケットに使ったデフォルト暗号化を選択します。
このプロパティは、Amazon EMRディストリビューションを使用している場合のみ利用できます。 |
[in-transit] (転送中)の暗号化を使用する |
転送中のデータの暗号化を有効にするには、このチェックボックスをオンにします。 情報メモ注: デフォルトでは、輸送中の暗号化が選択されています。このオプションを無効にすると、KMS暗号化EMRクラスターをセットアップする必要はありません。
これらのプロパティは、SSE-KMS暗号化でAmazon EMRディストリビューションを使用している場合のみ利用できます。 |
[Assume Role] (ロールを引き受け) |
このチェックボックスを選択すると、ジョブにロールおよびこのロールに関連付けられた権限を担わせることができます。 このロールに関連付けられている信頼ポリシーによって、自分のユーザーアカウントにそのロールへのアクセスが付与されていることをご確認ください。不明であれば、そのロールの所有者かAWS管理者にお問い合わせください。 このチェックボックスをオンにした後、このロールに対して定義されているAWSシステムの管理者のパラメーターを指定します。
[External ID] (外部ID)パラメーターは、AWS管理者やそのロールの所有者がロールの信頼ポリシー設定時に外部IDを定義した場合のみ必要です。
加えて、AWS管理者がレスポンスパフォーマンスを向上させるため特定のリージョンのSTSエンドポイントを有効にしている場合、[Advanced settings] (高度な設定)タブの[Set STS region](STSリージョンの設定)チェックボックスまたは[Set STS endpoint] (STSエンドポイントの設定)チェックボックスを使用します。 このチェックボックスは、Talendがサポートする次のディストリビューションでのみ利用できます:
このチェックボックスは、[Local] (ローカル) Sparkモードの[Spark configuration] (Spark設定)タブでSpark V1.6以降を使用している時にも利用できます。 |
[KMS key id] (KMSキーID) |
暗号化に使用する顧客管理CMKのIDを入力します。
情報メモ注: 次のいずれかの形式を使用できます。
[KMS key id] (KMSキーID)フィールドは、[Use SSE-KMS encryption] (SSE暗号化を使用)チェックボックスをオンにした場合にのみ使用できます。この機能はAmazon EMR distribution ディストリビューションをSparkとともに使用している時に利用できます。 |
[Set region] (リージョンの設定) |
このチェックボックスを選択して、接続先のリージョンを選択します。 この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
|
[Set endpoint] (エンドポイントの設定) |
このチェックボックスを選択すると、[Endpoint] (エンドポイント)フィールドが表示されるので、使用する必要のあるAmazonのリージョンのエンドポイントを入力します。利用可能なエンドポイントのリストは、領域およびエンドポイントをご覧ください。 このチェックボックスを解除すると、エンドポイントは、Hadoopディストリビューションによって定義されたデフォルトのエンドポイントになりますが、[Set region] (リージョンを設定)を選択すると、このチェックボックスは利用できず、その場合は[Set region] (リージョンを設定)リストで選択した値が使用されます。 この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
|
詳細設定
[Set region] (リージョンを設定)と[Set endpoint] (エンドポイントを設定) |
レスポンスパフォーマンスを向上させるため使用するリージョンのSTSエンドポイントをAWS管理者が有効にしている場合は、[Set region] (リージョンを設定)チェックボックスを選択した後、使用するリージョナル エンドポイントを選択します。 このリージョナルエンドポイントリストで使いたいエンドポイントが利用できない場合は、[Set region] (リージョンを設定)チェックボックスを消去した後、[Set endpoint] (エンドポイントを設定)チェックボックスを選択して、使用されるエンドポイントを入力します。 このサービスを利用すれば、AWSユーザー認証のため、一時的かつ権限が限定された認証情報を要求できます。そのため、使用するAWSアカウントを認証する場合は引き続きアクセスキーとシークレットキーを入力する必要があります。 使用できる STSエンドポイントの一覧の詳細は、[AWS Security Token Service] (AWSセキュリティトークンサービス)をご覧ください。STS一時認証情報の詳細の詳細は、[Temporary Security Credentials] (一時的なセキュリティ認証情報)をご覧ください。両方の記事はAWSドキュメントからのものです。 |
使用方法
使用ルール |
このコンポーネントは、他のコンポーネントに接続せずに使用されます。 ジョブごとに複数のtS3Configurationコンポーネントを使用できます。 設定がランタイムにジョブ全体で使われるように、tS3Configurationと共に、実行するファイルシステム関連のサブジョブを同じジョブにドロップする必要があります。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |
制限事項 |
ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Talend StudioのIntegrationパースペクティブにある[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールをインストールをご覧ください。 |