Apache Spark BatchのtDynamoDBInputプロパティ

これらのプロパティは、 Spark Batchジョブのフレームワークで実行されているtDynamoDBInputを設定するために使われます。

Spark BatchのtDynamoDBInputコンポーネントは、データベースファミリーに属しています。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで利用できます。

このコンポーネントはSpark 4.0.xではサポートされていません。

基本設定

[Properties] (プロパティ)	説明
[Use an existing connection] (既存の接続を使用)	定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。
[Inherit credentials from AWS role] (AWSロールから認証情報を継承)	インスタンスプロファイル認証情報を使用する場合は、このチェックボックスをオンにします。これらの認証情報はAmazon EC2インスタンスに使用できます。また、Amazon EC2メタデータサービス経由で配信されます。このオプションを使用するには、ジョブがAmazon EC2内で、または、リソースへのアクセスにIAMロールを使用できるその他のサービス内で実行されている必要があります。詳細は、Using an IAM Role to Grant Permissions to Applications Running on Amazon EC2 Instancesをご覧ください。情報メモ注: このオプションは、[Use existing connection] (既存の接続を使用)がオフの場合に使用できます。
[Access Key] (アクセスキー)	AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、Getting Your AWS Access Keysをご覧ください。情報メモ注: このオプションは、[Use an existing connection] (既存の接続を使用)と[Inherit credentials from AWS role] (AWSロールから認証情報を継承)がオフの場合に使用できます。
[Secret Key] (シークレットキー)	シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。情報メモ注: このオプションは、[Use an existing connection] (既存の接続を使用)と[Inherit credentials from AWS role] (AWSロールから認証情報を継承)がオフの場合に使用できます。
[Region] (リージョン)	リージョン名を選択するか、二重引用符で囲んで("us-east-1"など)、AWSリージョンを指定します。AWSリージョンの詳細の詳細は、Regions and Endpointsをご覧ください。
[Use End Point] (エンドポイントを使用)	このチェックボックスをオンにし、表示された[Server URL] (サーバーURL)フィールドで、DynamoDBデータベースサービスのWebサービスのURLを指定します。
[Schema] (スキーマ)と[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。
[Table Name] (テーブル名)	データを読み取るテーブルの名前を指定します。

詳細設定

[Properties] (プロパティ)	説明
[Number of scan segments] (スキャンセグメント数)	引用符を使わずに、並列スキャンのセグメント数を入力します。
[Number of partitions] (パーティションの数)	Spark executorがデータを並列処理できるように、Sparkが入力データを分割するパーティションの最大数を引用符を使わずに入力します。セグメント数以下の数を置くことをお勧めします。
[Throughput read percent] (スループット読み取りパーセント)	引用符を使わずに、Amazonで事前に定義された読み取り容量の使用率(10進数で表示)を入力します。残りの容量は、Talendアプリケーション以外のほかのアプリケーションのために節約されています。この読み取り容量の詳細は、読み取りのスループットをプロビジョニングするをご覧ください。
詳細設定	プロパティを追加して、tDynamoDBInputにデータの読み取り時に実行させる追加のオペレーションを定義します。この表はコンポーネントの将来の進化のために存在し、それを使うにはDynamoDB開発の高度な知識が必要です。現在、ユーザーが設定できる興味深いプロパティはありません。

使用方法

使用方法のガイダンス	説明
使用ルール	このコンポーネントは開始コンポーネントとして使用され、出力リンクを必要とします。このコンポーネントは、DynamoDBデータベースに接続するために同じジョブ内にあるtDynamoDBConfigurationコンポーネントを使う必要があります。このコンポーネントの横にtDynamoDBConfigurationコンポーネントをドロップし、このコンポーネントの[Basic settings] (基本設定)を設定してtDynamoDBConfigurationを使う必要があります。このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用方法のガイダンス

説明

使用ルール

このコンポーネントは開始コンポーネントとして使用され、出力リンクを必要とします。

このコンポーネントは、DynamoDBデータベースに接続するために同じジョブ内にあるtDynamoDBConfigurationコンポーネントを使う必要があります。このコンポーネントの横にtDynamoDBConfigurationコンポーネントをドロップし、このコンポーネントの[Basic settings] (基本設定)を設定してtDynamoDBConfigurationを使う必要があります。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください