tRedshiftUnloadの標準プロパティ
これらのプロパティは、標準のジョブのフレームワークで実行されているtRedshiftUnloadを設定するために使われます。
標準のtRedshiftUnloadコンポーネントは、Cloudファミリーとデータベースファミリーに属しています。
このフレームワーク内のコンポーネントは、すべてのTalend製品で利用できます。
基本設定
[Property Type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。
|
[Use an existing connection] (既存の接続を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
[Host] (ホスト) |
データベースサーバーのIPアドレスまたはホスト名を入力します。 |
[Port] (ポート) |
データベースサーバーのリスニングポート番号を入力します。 |
[Database] (データベース) |
データベースの名前を入力します。 |
[Schema] (スキーマ) |
スキーマの名前を入力します。 |
[Username] (ユーザー名)と[Password] (パスワード) |
データベースユーザー認証データを入力します。 パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、OKをクリックして設定を保存します。 |
[Additional JDBC Parameters] (追加のJDBCパラメーター) |
作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー-値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。 |
[Table Name] (テーブル名) |
データが読み取られるテーブルの名前を入力します。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
[Query Type] (クエリータイプ)と[Query] (クエリー) |
スキーマ定義と一致させるように、フィールドの順序に特に注意を払いつつ、データベースクエリーを入力します。 クエリー内の単純な引用符をそれぞれダブルエスケープします。例:
|
[Guess Query] (クエリーを推測) |
ボタンをクリックして、[Query] (クエリー)フィールドのテーブルスキーマに対応するクエリーを生成します。 |
[Use an existing S3 connection] (既存のS3接続を使用) |
定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。 |
[Access Key] (アクセスキー) |
AWSアカウントを一意に識別するアクセスキーIDを指定します。アクセスキーとアクセスシークレットを取得する方法は、Getting Your AWS Access Keys (英語のみ)をご覧ください。 このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。 |
[Secret Key] (シークレットキー) |
シークレットアクセスキーを指定します。シークレットアクセスキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。 シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、OKをクリックして設定を保存します。 このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。 |
[Assume Role] (ロールを引き受け) |
このチェックボックスをオンにして、新たに引き受けたロールセッションの作成に使用する以下のパラメーターに値を指定します。
このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合は利用できません。 IAMロールARNチェーンの詳細は、[Authorizing Redshift service] (Redshiftサービスの承認) (英語のみ)をご覧ください。 |
[Bucket] (バケット) |
データーのアンロード先のAmazon S3バケットの名前、つまり最上位のフォルダーを入力します。 |
[Key prefix] (キープレフィックス) |
Amazon S3のアンロードファイルの名前プレフィックスを入力します。デフォルトでは、アンロードファイルはRedshiftクラスターのスライスごとに書き込まれ、ファイル名は次の形式で書き込まれます: <object_path>/<name_prefix><slice-number>_part_<file-number> |
詳細設定
[File type] (ファイルタイプ) |
リストからAmazon S3のアンロードファイルのタイプを選択します。
情報メモ注: Apache Parquetオプションは、TalendのR2020-07以降のStudioマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
|
[Fields terminated by] (フィールド区切り) |
フィールドを区切るための文字を入力します。 このフィールドは、[Delimited file or CSV] (区切り付きファイルまたはCSV)が[File type] (ファイルタイプ) のリストから選択されている場合にのみ表示されます。 |
[Enclosed by] (引用符) |
フィールドが引用符で囲まれているペア内の文字を選択します。 このリストは、[Delimited file or CSV] (区切り付きファイルまたはCSV)が[File type] (ファイルタイプ)リストから選択されている場合にのみ表示されます。 |
[Fixed width mapping] (固定長項目マッピング) |
ユーザー定義のカラムラベル、および二重引用符の間のカラム幅を指定する文字列を入力します。文字列の形式は次のとおりです。 ColumnLabel1:ColumnWidth1,ColumnLabel2:ColumnWidth2,... 文字列内のカラムラベルとテーブルカラム名の間には関係がなく、テキスト文字列または整数のどちらも使用できます。ラベル/幅のペアの順序は、テーブルカラムの順序と正確に一致している必要があります。 このフィールドは、[File type] (ファイルタイプ)リストから[Fixed width] (固定幅)が選択されている場合にのみ表示されます。 |
[Compressed by] (圧縮方式) |
このチェックボックスをオンにして、表示されたリストからファイルの圧縮タイプを選択します。 |
[Encrypt] (暗号化) |
Amazon S3のクライアント側の暗号化を使ってアンロードファイルを暗号化する場合は、このチェックボックスを選択します。[Encryption key] (暗号化キー)フィールドが表示されたら、アンロードファイルの暗号化に使う暗号化キーを入力します。 base64でエンコードされたAES 128ビットまたはAES 256ビットのエンベロープキーのみサポートされています。詳細は、暗号化されたデータファイルをアンロードする (英語のみ)をご覧ください。 Parquetファイルのクライアント側の暗号化はサポートされていないため、このオプションは区切り付き/CSVファイルと固定幅ファイルにのみ利用できます。 このオプションは、[Use an existing S3 connection] (既存のS3接続を使用)が選択されている場合は利用できません。 |
[Specify null string] (null文字列を指定) |
このチェックボックスをオンにして、表示されたリストから、アンロードファイルのnull値を表す文字列を選択します。 |
[Escape] (エスケープ) |
区切り付きのアンロードファイルのCHARカラムとVARCHARカラムで、次の文字のすべての出現の前にエスケープ文字(\)を置くには、このチェックボックスをオンにします: 改行(\n)、キャリッジリターン(\r)、アンロードされるデータに指定された区切り文字、エスケープ文字(\)、引用文字("または ')。 |
[Overwrite s3 object if exist] (S3オブジェクトが存在したら上書き) |
既存のAmazon S3オブジェクトファイルを上書きするには、このチェックボックスをオンにします。 |
[Parallel] (並列) |
Redshiftクラスター内のスライスの数に応じて、Amazon S3上の複数のアンロードファイルに並行してデータを書き込むには、このチェックボックスをオンにします。 |
JDBC URL |
[JDBC URL]ドロップダウンリストから、Amazon Redshiftデーターベースへのアクセス方法を選択します。
|
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、Talend Studioユーザーガイドをご覧ください。 |
使用方法
使用ルール |
このコンポーネントは、Amazon Redshiftデータベースのすべての可能なSQLクエリーをカバーします。 |
[Dynamic settings] (ダイナミック設定) |
[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。 [Dynamic settings] (ダイナミック設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスがオンになっている場合のみ利用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは利用できなくなります。 ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。[Dynamic settings] (ダイナミック設定)とコンテキスト変数については、Talend Studioユーザーガイドをご覧ください。 |