tRedshiftBulkExecの標準プロパティ
これらのプロパティは、標準のジョブのフレームワークで実行されているtRedshiftBulkExecを設定するために使われます。
標準のtRedshiftBulkExecコンポーネントは、ファミリーCloudおよびデータベースに属しています。
このフレームワーク内のコンポーネントは、すべてのTalend製品で利用できます。
基本設定
[Database] (データベース) |
データベースのタイプをリストから選択し、[Apply] (適用)をクリックします。 |
[Property Type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。
|
[Use an existing connection] (既存の接続を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
[Host] (ホスト) |
データベースサーバーのIPアドレスまたはホスト名を入力します。 |
[Port] (ポート) |
データベースサーバーのリスニングポート番号を入力します。 |
[Database] (データベース) |
データベースの名前を入力します。 |
[Schema] (スキーマ) |
スキーマの名前を入力します。 |
[Username] (ユーザー名)と[Password] (パスワード) |
データベースユーザー認証データを入力します。 パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、OKをクリックして設定を保存します。 |
[Additional JDBC Parameters] (追加のJDBCパラメーター) |
作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー-値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。 |
[Table Name] (テーブル名) |
作成するテーブルの名前を指定します。一度に書き込みができるテーブルは1つだけです。 |
[Action on table] (テーブルでのアクション) |
定義済みのテーブルで、次のオペレーションの1つを実行できます。
|
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。
|
|
スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
[Data source type] (データソースタイプ) |
ロードするソースデータのロケーションを選択します。
詳細は、Data Sources (英語のみ)をご覧ください。 |
[Use an existing S3 connection] (既存のS3接続を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 このオプションは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択されている場合に利用できます。 |
[Access Key] (アクセスキー)/[S3 Access Key] (S3アクセスキー) |
AWSアカウントを一意に識別するアクセスキーIDを指定します。アクセスキーとアクセスシークレットキーを取得する方法は、「Getting Your AWS Access Keys (英語のみ)」をご覧ください。 情報メモ注:
|
[Secret Key] (シークレットキー)/[S3 Secret Key] (S3シークレットキー) |
シークレットアクセスキーを指定します。シークレットアクセスキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。 シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、OKをクリックして設定を保存します。 情報メモ注:
|
[Assume Role] (ロールを引き受け) |
このチェックボックスをオンにして、新たに引き受けたロールセッションの作成に使用する以下のパラメーターに値を指定します。
このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。 IAMロールARNチェーンの詳細は、[Authorizing Redshift service] (Redshiftサービスの承認) (英語のみ)をご覧ください。 |
[Bucket] (バケット)/[S3 bucket] (S3バケット) |
ファイルが置かれているAmazon S3バケットの名前を指定します。 このフィールドは[S3]または[Remote host] (リモートホスト)が[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。 情報メモ注: このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストでS3を選択すると[Bucket] (バケット)として表示され、ドロップダウンリストでRemote hostを選択すると[S3 bucket] (S3バケット)として表示されます。
使用するバケットとRedshiftデータベースは、Amazon上の同じリージョンに存在している必要があります。これにより、Amazonで既知のS3ServiceExceptionエラーが回避できる可能性があります。これらのエラーについては、S3ServiceExceptionエラー (英語のみ)をご覧ください。 |
[Key] (キー) |
ロードするデータが含まれているファイルへのパスを指定します。 このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから [S3]が選択されている場合にのみ使用できます。 |
[Cluster id] (クラスターID) |
ロードするデータが保存されているクラスターのIDを指定します。 このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。 |
[HDFS path] (HDFSパス) |
データファイルを参照するHDFSファイルパスを指定します。 このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。 |
[Table] (テーブル) |
ロードするデータが含まれているDynamoDBテーブルの名前を指定します。 このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。 |
[Read ratio] (読み取り率) |
データロードに使用するDynamoDBテーブルのプロビジョニング済みスループットのパーセンテージを指定します。 このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。 |
[SSH manifest file] (SSHマニフェストファイル) |
SSH接続を開き、リモートコマンドを実行するために使用される情報を提供するSSHマニフェストファイルのオブジェクトキーを指定します。 このフィールドは[Remote host] (リモートホスト)が[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。 |
詳細設定
[File type] (ファイルタイプ) |
ロードするデータが含まれているファイルのタイプを選択します。
このリストは、S3、EMR、または[Remote host] (リモートホスト)が[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。 情報メモ注: Apache Parquetオプションは、TalendのR2021-02以降のStudioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
|
[Fields terminated by] (フィールド区切り) |
フィールドを区切るための文字を入力します。 このフィールドは、[Delimited file or CSV] (区切り付きファイルまたはCSV)が[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。 |
[Enclosed by] (引用符) |
フィールドが引用符で囲まれている文字を選択します。 このリストは、[Delimited file or CSV] (区切り付きファイルまたはCSV)が[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。 |
[JSON mapping] (JSONマッピング) |
ソースファイル内のデータエレメントをAmazon Redshiftのターゲットテーブル内のカラムにマッピングする方法を指定します。有効な値には次のものがあります。
このフィールドは、JSONまたはAVROが[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。 |
[Fixed width mapping] (固定長項目マッピング) |
ユーザー定義のカラムラベル、および二重引用符の間のカラム幅を指定する文字列を入力します。文字列の形式は次のとおりです。 ColumnLabel1:ColumnWidth1,ColumnLabel2:ColumnWidth2,... 文字列内のカラムラベルとテーブルカラム名の間には関係がなく、テキスト文字列または整数のどちらも使用できます。ラベル/幅のペアの順序は、テーブルカラムの順序と正確に一致している必要があります。 このフィールドは、[File type] (ファイルタイプ)リストから[Fixed width] (固定幅)が選択されている場合にのみ使用できます。 |
[Compressed by] (圧縮方式) |
このチェックボックスをオンにして、表示されたリストからソースファイルの圧縮タイプを選択します。 このチェックボックスは、S3、EMR、または[Remote host] (リモートホスト)が[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。 |
[Decrypt] (解読) |
ファイルの暗号化にAmazon S3のクライアント側の暗号化が使用されている場合は、このチェックボックスをオンにします。[Encryption key] (暗号化キー)フィールドが表示されたら、ファイルの暗号化に使用されている暗号化キーを指定します。base64でエンコードされたAES 128ビットまたはAES 256ビットのエンベロープキーのみサポートされています。詳細は、Loading Encrypted Data Files from Amazon S3 (英語のみ)をご覧ください。 このチェックボックスは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択され、[Basic settings] (基本設定)ビューで[Use an existing S3 connection] (既存のS3接続を使用)が選択されていない場合に利用できます。 |
[Encoding] (エンコーディング) |
リストからロードするデータのエンコーディングタイプを選択します。 このリストは、S3、EMR、または[Remote host] (リモートホスト)が[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。 |
[Date format] (日付形式) |
リストから次の項目を1つ選択し、ソースデータの日付形式を指定します。
|
[Time format] (時刻の形式) |
リストから次の項目を1つ選択し、ソースデータの時刻の形式を指定します。
|
[Settings] (設定) |
データをロードする際のパラメーターを増やすには、テーブルの下の[+]ボタンをクリックします。
パラメーターの詳細は、http://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html (英語のみ)をご覧ください。 |
JDBC URL |
[JDBC URL]ドロップダウンリストから、Amazon Redshiftデーターベースへのアクセス方法を選択します。
|
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、Talend Studioユーザーガイドをご覧ください。 |
このコンポーネントは、[Row] (行) > [Reject] (リジェクト)リンクをサポートしていません。
使用方法
使用ルール |
tRedshiftBulkExecコンポーネントでは、Amazon S3上の区切り付き/CSV、JSON、または固定幅ファイルからAmazon Redshiftにデータをロードできます。ただし、tRedshiftOutputBulkコンポーネントは、現在、区切り付き/CSVファイルを生成してAmazon S3にアップロードする処理のみサポートしています。JSONまたは固定幅ファイルからデータをロードする必要がある場合は、コンポーネントtRedshiftOutputBulkを使用してファイルを生成してAmazon S3にアップロードするのではなく、コンポーネントtFileOutputJSONまたはtFileOutputPositionalをコンポーネントtS3Putと一緒に使用します。 |
[Dynamic settings] (ダイナミック設定) |
[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。 [Dynamic settings] (ダイナミック設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスがオンになっている場合のみ利用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは利用できなくなります。 ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。[Dynamic settings] (ダイナミック設定)とコンテキスト変数については、Talend Studioユーザーガイドをご覧ください。 |