メイン コンテンツをスキップする 補完的コンテンツへスキップ

tRedshiftBulkExecの標準プロパティ

これらのプロパティは、標準のジョブのフレームワークで実行されているtRedshiftBulkExecを設定するために使われます。

標準tRedshiftBulkExecコンポーネントは、ファミリーCloudおよびデータベースに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で利用できます。

情報メモ注: このコンポーネントは、動的データベースコネクターの特定のバージョンです。データベース設定に関連するプロパティは、データベースタイプの選択に応じて異なります。動的データベースコネクターについては、動的データベースコンポーネントをご覧ください。

基本設定

[Database] (データベース)

データベースのタイプをリストから選択し、[Apply] (適用)をクリックします。

[Property Type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

  • [Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。

  • [Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。

[Use an existing connection] (既存の接続を使用)

定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。

[Host] (ホスト)

データベースサーバーのIPアドレスまたはホスト名を入力します。

[Port] (ポート)

データベースサーバーのリスニングポート番号を入力します。

[Database] (データベース)

データベースの名前を入力します。

[Schema] (スキーマ)

スキーマの名前を入力します。

[Username] (ユーザー名)[Password] (パスワード)

データベースユーザー認証データを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、OKをクリックして設定を保存します。

[Additional JDBC Parameters] (追加のJDBCパラメーター)

作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー-値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。

[Table Name] (テーブル名)

作成するテーブルの名前を指定します。一度に書き込みができるテーブルは1つだけです。

[Action on table] (テーブルでのアクション)

定義済みのテーブルで、次のオペレーションの1つを実行できます。

  • [None] (なし): 操作は行われません。

  • [Drop and create table] (ドロップしてテーブルを作成): テーブルが削除され、再作成されます。

  • [Create table] (テーブルを作成): テーブルが存在しないため、作成されます。

  • [Create table if not exists] (テーブルが存在しない場合は作成): テーブルが存在しない場合は作成されます。

  • [Drop table if exists and create] (テーブルが存在する場合はドロップして作成): テーブルが既に存在する場合は削除されて再作成されます。

  • [Clear table] (テーブルをクリア): テーブルのコンテンツが削除されます。この操作はロールバックできます。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

 

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Data source type] (データソースタイプ)

ロードするソースデータのロケーションを選択します。

  • [S3]: Amazon S3バケット内のファイルからデータをロードします。

  • [EMR]: Amazon EMRクラスターからデータをロードします。

  • [DynamoDB]: 既存のDynamoDBテーブルからデータをロードします。

  • [Remote host] (リモートホスト): Amazon Elastic Compute Cloud (Amazon EC2)インスタンスやその他のコンピューターなど、1つ以上のリモートホストからデータをロードします。

詳細は、Data Sources (英語のみ)をご覧ください。

[Use an existing S3 connection] (既存のS3接続を使用)

定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。

このオプションは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択されている場合に利用できます。

[Access Key] (アクセスキー)/[S3 Access Key] (S3アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを指定します。アクセスキーとアクセスシークレットキーを取得する方法は、「Getting Your AWS Access Keys (英語のみ)」をご覧ください。

情報メモ注:
  • このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。
  • [Data source type] (データソースタイプ)ドロップダウンリストから[Remote host] (リモートホスト)を選択すると、このオプションは[S3 Access Key] (S3アクセスキー)として表示されます。

[Secret Key] (シークレットキー)/[S3 Secret Key] (S3シークレットキー)

シークレットアクセスキーを指定します。シークレットアクセスキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、OKをクリックして設定を保存します。

情報メモ注:
  • このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。
  • [Data source type] (データソースタイプ)ドロップダウンリストから[Remote host] (リモートホスト)を選択すると、このオプションは[S3 Secret Key] (S3シークレットキー)として表示されます。

[Assume Role] (ロールを引き受け)

このチェックボックスをオンにして、新たに引き受けたロールセッションの作成に使用する以下のパラメーターに値を指定します。

  • [IAM Role ARNs chains] (IAMロールARNチェーン): 連結された一連のロール。クラスターがリソースにアクセスするために引き受けることのできる、他のアカウントに属している場合があります。

    最大10のロールを連結できます。

  • [Role ARN] (ロールARN): 引き受けるロールのARN (Amazonリソース名)。

このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。

IAMロールARNチェーンの詳細は、[Authorizing Redshift service] (Redshiftサービスの承認) (英語のみ)をご覧ください。

[Bucket] (バケット)/[S3 bucket] (S3バケット)

ファイルが置かれているAmazon S3バケットの名前を指定します。

このフィールドは[S3]または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

情報メモ注: このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストでS3を選択すると[Bucket] (バケット)として表示され、ドロップダウンリストでRemote hostを選択すると[S3 bucket] (S3バケット)として表示されます。

使用するバケットとRedshiftデータベースは、Amazon上の同じリージョンに存在している必要があります。これにより、Amazonで既知のS3ServiceExceptionエラーが回避できる可能性があります。これらのエラーについては、S3ServiceExceptionエラー (英語のみ)をご覧ください。

[Key] (キー)

ロードするデータが含まれているファイルへのパスを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから [S3]が選択されている場合にのみ使用できます。

[Cluster id] (クラスターID)

ロードするデータが保存されているクラスターのIDを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。

[HDFS path] (HDFSパス)

データファイルを参照するHDFSファイルパスを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。

[Table] (テーブル)

ロードするデータが含まれているDynamoDBテーブルの名前を指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。

[Read ratio] (読み取り率)

データロードに使用するDynamoDBテーブルのプロビジョニング済みスループットのパーセンテージを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。

[SSH manifest file] (SSHマニフェストファイル)

SSH接続を開き、リモートコマンドを実行するために使用される情報を提供するSSHマニフェストファイルのオブジェクトキーを指定します。

このフィールドは[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

詳細設定

[File type] (ファイルタイプ)

ロードするデータが含まれているファイルのタイプを選択します。

  • [Delimited file or CSV] (区切り付きファイルまたはCSV): 区切り付き/CSVファイル。

  • JSON: JSONファイル。

  • AVRO: Avroファイル。

  • [Fixed width] (固定幅): 固定幅ファイル。

  • Apache Parquet: Apache Parquetファイル。このオプションは、[Basic settings] (基本設定)ビューで[Data source type] (データソースタイプ)ドロップダウンリストから[S3]を選択した場合のみ利用できます。

このリストは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

情報メモ注: Apache Parquetオプションは、TalendのR2021-02以降のStudioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。

[Fields terminated by] (フィールド区切り)

フィールドを区切るための文字を入力します。

このフィールドは、[Delimited file or CSV] (区切り付きファイルまたはCSV)[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[Enclosed by] (引用符)

フィールドが引用符で囲まれている文字を選択します。

このリストは、[Delimited file or CSV] (区切り付きファイルまたはCSV)[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[JSON mapping] (JSONマッピング)

ソースファイル内のデータエレメントをAmazon Redshiftのターゲットテーブル内のカラムにマッピングする方法を指定します。有効な値には次のものがあります。

  • [auto] (自動): JSONファイルではソース名/値のペアのオブジェクトキーまたは名前、またはAvroファイルではAvroスキーマのフィールド名をターゲットテーブル内のカラムの名前にマッチングすることで、データのマッピングを行います。引数では大文字と小文字が区別され、二重引用符で囲む必要があります。

  • s3://jsonpaths_file: 名前付きJSONPathsファイルを使用してデータをマッピングします。パラメーターは、二重引用符で囲まれ、1つのファイルを明示的に参照しているAmazon S3オブジェクトキーである必要があります(たとえば、s3://mybucket/jsonpaths.txt)。詳細は、Data Format Parameters (英語のみ)をご覧ください。

このフィールドは、JSONまたはAVRO[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[Fixed width mapping] (固定長項目マッピング)

ユーザー定義のカラムラベル、および二重引用符の間のカラム幅を指定する文字列を入力します。文字列の形式は次のとおりです。

ColumnLabel1:ColumnWidth1,ColumnLabel2:ColumnWidth2,...

文字列内のカラムラベルとテーブルカラム名の間には関係がなく、テキスト文字列または整数のどちらも使用できます。ラベル/幅のペアの順序は、テーブルカラムの順序と正確に一致している必要があります。

このフィールドは、[File type] (ファイルタイプ)リストから[Fixed width] (固定幅)が選択されている場合にのみ使用できます。

[Compressed by] (圧縮方式)

このチェックボックスをオンにして、表示されたリストからソースファイルの圧縮タイプを選択します。

このチェックボックスは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

[Decrypt] (解読)

ファイルの暗号化にAmazon S3のクライアント側の暗号化が使用されている場合は、このチェックボックスをオンにします。[Encryption key] (暗号化キー)フィールドが表示されたら、ファイルの暗号化に使用されている暗号化キーを指定します。base64でエンコードされたAES 128ビットまたはAES 256ビットのエンベロープキーのみサポートされています。詳細は、Loading Encrypted Data Files from Amazon S3 (英語のみ)をご覧ください。

このチェックボックスは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択され、[Basic settings] (基本設定)ビューで[Use an existing S3 connection] (既存のS3接続を使用)が選択されていない場合に利用できます。

[Encoding] (エンコーディング)

リストからロードするデータのエンコーディングタイプを選択します。

このリストは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

[Date format] (日付形式)

リストから次の項目を1つ選択し、ソースデータの日付形式を指定します。

  • NONE: 日付形式は指定されません。

  • PATTERN: これを選択すると、表示されるフィールドで日付形式を指定できます。デフォルトの日付形式はYYYY-MM-DDです。

  • AUTO: Amazon Redshiftが日付形式を認識し、自動的に変換するように設定するには、これを選択します。

[Time format] (時刻の形式)

リストから次の項目を1つ選択し、ソースデータの時刻の形式を指定します。

  • NONE: 時刻の形式は指定されません。

  • PATTERN: これを選択すると、表示されるフィールドで時刻の形式を指定できます。デフォルトの時刻形式はYYYY-MM-DD HH:MI:SSです。

  • AUTO: Amazon Redshiftが時刻の形式を認識し、自動的に変換するように設定するには、これを選択します。

  • EPOCHSECS: ソースデータがエポックタイム(1970年1月1日、00:00:00 UTCを基準とする秒数)で表されるようにするには、これを選択します。

  • EPOCHMILLISECS: ソースデータがエポックタイム(1970年1月1日、00:00:00 UTCを基準とするミリ秒数)で表されるようにするには、これを選択します。

[Settings] (設定)

データをロードする際のパラメーターを増やすには、テーブルの下の[+]ボタンをクリックします。

  • [Parameter] (クライアントパラメーター): セルをクリックし、ドロップダウンリストからパラメーターを選択します。

  • [Value] (値): 対応するパラメーターに値を設定するために使われます。値を必要としないパラメーター(IGNOREBLANKLINESなど)に値を設定することはできません。

パラメーターの詳細は、http://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html (英語のみ)をご覧ください。

JDBC URL
[JDBC URL]ドロップダウンリストから、Amazon Redshiftデーターベースへのアクセス方法を選択します。
  • [Standard] (標準): Redshiftデータベースへのアクセスに標準的な方法を使用します。
  • [SSO] (SSO): Redshiftデータベースにアクセスするには、IAMシングルサインオン(SSO)認証の方法を使用します。このオプションを選択する前に、Redshiftクラスターに追加されたIAMロールに、このクラスターに対する適切なアクセス権と権限があることをご確認ください。詳細は、AWSサービスの管理者にお問い合わせください。

    このオプションは、[Basic settings] (基本設定)[Use an existing connection] (既存の接続を使用)チェックボックスがオフの場合のみ利用できます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

情報メモ注:

このコンポーネントは、[Row] (行) > [Reject] (リジェクト)リンクをサポートしていません。

使用方法

使用ルール

tRedshiftBulkExecコンポーネントでは、Amazon S3上の区切り付き/CSV、JSON、または固定幅ファイルからAmazon Redshiftにデータをロードできます。ただし、tRedshiftOutputBulkコンポーネントは、現在、区切り付き/CSVファイルを生成してAmazon S3にアップロードする処理のみサポートしています。JSONまたは固定幅ファイルからデータをロードする必要がある場合は、コンポーネントtRedshiftOutputBulkを使用してファイルを生成してAmazon S3にアップロードするのではなく、コンポーネントtFileOutputJSONまたはtFileOutputPositionalをコンポーネントtS3Putと一緒に使用します。

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

[Dynamic settings] (ダイナミック設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスがオンになっている場合のみ利用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは利用できなくなります。

ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。[Dynamic settings] (ダイナミック設定)とコンテキスト変数については、Talend Studioユーザーガイドをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。