tGreenplumGPLoadの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtGreenplumGPLoadを設定するために使われます。
標準のtGreenplumGPLoadコンポーネントは、データベースファミリーに属しています。
このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。
基本設定
[Property type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。
|
[Host] (ホスト) |
データベースサーバーのIPアドレス。 |
[Port] (ポート) |
DBサーバーのリスニングポート番号。 |
[Database] (データベース) |
Greenplumデータベースの名前。 |
[Schema] (スキーマ) |
スキーマの正確な名前。 |
[Username] (ユーザー名)と[Password] (パスワード) |
データベースユーザー認証データ。 パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。 |
[Table] (テーブル) |
データが挿入されるテーブルの名前。 |
[Action on table] (テーブルでのアクション) |
データをロードする前に、定義済みのテーブルで次の操作の1つを実行できます。 [None] (なし): 操作は行われません。 [Clear table] (テーブルをクリア): データがロードされる前にテーブルのコンテンツが削除されます。 [Create table] (テーブルを作成): テーブルが存在しないため、作成します。 [Create table if not exists] (テーブルが存在しない場合は作成): テーブルが存在しない場合は作成されます。 [Drop and create table] (ドロップしてテーブルを作成): テーブルが削除され、再作成されます。 [Drop a table if exists and create] (存在する場合はテーブルをドロップして作成): テーブルが既に存在する場合は削除され、再び作成されます。 [Truncate table] (テーブルを切り詰め): テーブルのコンテンツが削除されます。この操作はロールバックできません。 |
[Action on data] (データでのアクション) |
定義されたテーブルのデータで実行できる操作は次のとおりです。 [Insert] (挿入): テーブルに新しいエントリーを追加します。重複が見つかった場合、ジョブは停止されます。 [Update] (アップデート): 既存のエントリーが変更されます。 [Merge] (マージ): テーブルをアップデートしたり、テーブルにデータを追加したりします。 情報メモ警告:
[Update] (アップデート)操作と[Merge] (マージ)操作のベースとなるプライマリキーとして、少なくとも1つのカラムを指定する必要があります。そのためには、[Edit Schema] (スキーマを編集)をクリックし、プライマリキーに指定するカラムの横にあるチェックボックスをオンにします。[Update] (アップデート)/[Merge options] (マージオプション)を定義するには、[Match Column] (マッチカラム)カラムで、[Update] (アップデート)操作と[Merge] (マージ)操作のベースとして使うカラム名に対応するチェックボックスをオンにして、[Update Column] (カラムのアップデート)カラムで、アップデートするカラム名に対応するチェックボックスをオンにします。[Update condition] (アップデート条件)を定義するには、データのアップデートに使う条件を入力します。 |
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。
スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
[Data file] (データファイル) |
使うデータファイルへの完全パス。このコンポーネントをスタンドアロンモードで使う場合、これはデータベースにロードする既存のデータファイルの名前です。このコンポーネントが入力フローを使って接続されている場合、これは、後でデータベースにロードするためにgploadで使うために、生成されて着信データと共に書き込まれるファイルの名前です。このフィールドは、[Use named-pipe] (名前付きパイプの使用)チェックボックスをオンにすると非表示になります。 |
[Populate column list based on the schema] (スキーマに基づくカラムリストに入力) |
このオプションを選択すると、スキーマで定義されたカラムがYAMLファイルに追加されます。これはターゲットテーブルに余分なカラムがある場合(ステージングテーブルにプライマリキーのみロードする場合など)に非常に便利です。このオプションを選択すると、YAMLファイルにCOLUMNS:セクションが生成されます。 |
[Use named-pipe] (名前付きパイプを使う) |
名前付きパイプを使うには、このチェックボックスをオンにします。このオプションは、コンポーネントが入力フローに接続されている場合にのみ適用されます。このチェックボックスがオンの場合、データファイルは生成されず、データは名前付きパイプを介してgploadに転送されます。このオプションにより、LinuxとWindowsの両方でパフォーマンスが大幅に向上します。 情報メモ注:
名前付きパイプモードのこのコンポーネントは、JNIインターフェイスを使って、任意のWindowsプラットフォームで名前付きパイプの作成と書き込みを行います。したがって、関連するJNI DLLへのパスは、Javaライブラリーパス内で設定する必要があります。コンポーネントには、32ビットと64ビットの両方のオペレーティングシステム用の2つのDLLが付属しています。これらのDLLは、コンポーネントと共にTalend Studioで自動的に提供されています。 |
[Named-pipe name] (名前付きパイプの名前) |
使う名前付きパイプの名前を指定します。入力した名前が有効であることをご確認ください。 |
[Die on error] (エラー発生時に強制終了) |
このチェックボックスはデフォルトで選択されています。エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。必要に応じて[Row] (行) > [Rejects] (リジェクト)リンクを使用してエラー発生時に行を取得できます。 |
詳細設定
[DB driver] (データベースドライバー) |
ドロップダウンリストから、目的のデータベースドライバー(GreenplumとPostgreSQLのいずれか)を選択します。デフォルトではGreenplumに設定されています。 |
[Additional Parameters] (追加パラメーター) |
データベース接続に追加のパラメーターを指定します。 |
[Use existing control file (YAML formatted)] (既存の制御ファイルを使用(YAML形式)) |
コンポーネントですべてのオプションを明示的に指定する代わりに、gploadユーティリティで使う制御ファイルを提供するには、このチェックボックスをオンにします。このチェックボックスをオンにすると、[Data file] (データファイル)とその他のgpload関連オプションは適用されなくなります。制御ファイルの作成については、Greenplumのgploadマニュアルをご覧ください。 |
[Control file] (制御ファイル) |
使う制御ファイルのパスを二重引用符で囲んで入力するか、[...]をクリックして制御ファイルを参照します。このオプションは-f引数を介してgploadユーティリティに渡されます。 |
[CSV mode] (CSVモード) |
このチェックボックスをオンにすると、[Escape char] (エスケープ文字)や[Text enclosure] (テキストエンクロージャー)などCSV固有のパラメーターが含まれます。 |
[Field separator] (フィールド区切り) |
フィールドを区切るために使う文字、文字列、または正規表現。 情報メモ警告:
これはgploadのdelim引数です。デフォルト値は|です。パフォーマンスを向上させるには、デフォルト値を使います。 |
[Escape char] (エスケープ文字) |
エスケープする行の文字。 |
[Text enclosure] (テキストエンクロージャー) |
テキストを囲むために使用する文字。 |
[Header (skips the first row of data file)] (ヘッダー(データファイルの先頭行をスキップ)) |
このチェックボックスをオンにすると、データファイルの最初の行がスキップされます。 |
[Additional options] (その他のオプション) |
gpload引数を対応するテーブルに設定します。[+]を必要な回数だけクリックしてして、テーブルに引数を追加します。[Parameter] (パラメーター)フィールドをクリックして、リストから引数を選択します。次に、対応する[Value] (値)フィールドをクリックして、値を引用符で囲んで入力します。
|
[Log file] (ログファイル) |
ディレクトリー内のログファイルへのアクセスパスを参照または入力します。 |
[Encoding] (エンコーディング) |
フィールドにエンコーディングタイプを手動で定義します。 |
[Specify gpload path] (gploadパスの指定) |
gpload実行可能ファイルへの完全パスを指定するには、このチェックボックスをオンにします。gploadパスがPATH環境変数で指定されていない場合は、このオプションをオンにする必要があります。 |
[Full path to gpload executable] (gpload実行可能ファイルへの完全パス) |
使用中のマシン上のgpload実行可能ファイルへの完全パス。このオプションを選択する代わりに、PATH環境変数でgploadパスを指定することをお勧めします。 |
[Remove datafile on successful execution] (実行が成功するとデータファイルを削除) |
このオプションを選択すると、操作が正しく完了した場合に生成されるデータファイルを削除できます。 |
[Gzip compress the datafile] (データファイルをGzip圧縮) |
このオプションを選択すると、Gzipを使ってデータファイルを圧縮し、元のサイズの50~90%までディスク容量を節約できます。ただし、CPU使用率は増加します。 |
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。 |
グローバル変数
グローバル変数 |
NB_LINE: 処理された行の数。これはAfter変数で、整数を返します。 GPLOAD_OUTPUT: gploadユーティリティが実行された時の出力情報。これはAfter変数で、文字列を返します。 ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 NB_LINE_INSERTED: 正しく挿入された行の数。これはAfter変数で、整数を返します。 NB_LINE_UPDATED: 正しくアップデートされた行の数。これはAfter変数で、整数を返します。 NB_DATA_ERRORS: 発生したエラーの数。これはAfter変数で、整数を返します。 GPLOAD_STATUS: ロード操作のステータス。これはAfter変数で、文字列を返します。 GPLOAD_RUNTIME: ロード操作にかかった時間(ミリ秒)。これはLong型のAfter変数です。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。 変数の詳細は、コンテキストと変数を使用をご覧ください。 |
使用方法
使用ルール |
このコンポーネントは、データベースにロードするデータが特定の変換を必要としない場合に主に使います。 このコンポーネントは、スタンドアロンコンポーネントまたは出力コンポーネントとして使えます。 |
制限事項 |
ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Talend StudioのIntegrationパースペクティブにある[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールをインストールをご覧ください。 |