メイン コンテンツをスキップする 補完的コンテンツへスキップ

tGreenplumGPLoadの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtGreenplumGPLoadを設定するために使われます。

標準tGreenplumGPLoadコンポーネントは、データベースファミリーに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

  • [Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。

  • [Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。

[Host] (ホスト)

データベースサーバーのIPアドレス。

[Port] (ポート)

DBサーバーのリスニングポート番号。

[Database] (データベース)

Greenplumデータベースの名前。

[Schema] (スキーマ)

スキーマの正確な名前。

[Username] (ユーザー名)[Password] (パスワード)

データベースユーザー認証データ。

パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

[Table] (テーブル)

データが挿入されるテーブルの名前。

[Action on table] (テーブルでのアクション)

データをロードする前に、定義済みのテーブルで次の操作の1つを実行できます。

[None] (なし): 操作は行われません。

[Clear table] (テーブルをクリア): データがロードされる前にテーブルのコンテンツが削除されます。

[Create table] (テーブルを作成): テーブルが存在しないため、作成します。

[Create table if not exists] (テーブルが存在しない場合は作成): テーブルが存在しない場合は作成されます。

[Drop and create table] (ドロップしてテーブルを作成): テーブルが削除され、再作成されます。

[Drop a table if exists and create] (存在する場合はテーブルをドロップして作成): テーブルが既に存在する場合は削除され、再び作成されます。

[Truncate table] (テーブルを切り詰め): テーブルのコンテンツが削除されます。この操作はロールバックできません。

[Action on data] (データでのアクション)

定義されたテーブルのデータで実行できる操作は次のとおりです。

[Insert] (挿入): テーブルに新しいエントリーを追加します。重複が見つかった場合、ジョブは停止されます。

[Update] (アップデート): 既存のエントリーが変更されます。

[Merge] (マージ): テーブルをアップデートしたり、テーブルにデータを追加したりします。

情報メモ警告:

[Update] (アップデート)操作と[Merge] (マージ)操作のベースとなるプライマリキーとして、少なくとも1つのカラムを指定する必要があります。そのためには、[Edit Schema] (スキーマを編集)をクリックし、プライマリキーに指定するカラムの横にあるチェックボックスをオンにします。[Update] (アップデート)/[Merge options] (マージオプション)を定義するには、[Match Column] (マッチカラム)カラムで、[Update] (アップデート)操作と[Merge] (マージ)操作のベースとして使うカラム名に対応するチェックボックスをオンにして、[Update Column] (カラムのアップデート)カラムで、アップデートするカラム名に対応するチェックボックスをオンにします。[Update condition] (アップデート条件)を定義するには、データのアップデートに使う条件を入力します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Data file] (データファイル)

使うデータファイルへの完全パス。このコンポーネントをスタンドアロンモードで使う場合、これはデータベースにロードする既存のデータファイルの名前です。このコンポーネントが入力フローを使って接続されている場合、これは、後でデータベースにロードするためにgploadで使うために、生成されて着信データと共に書き込まれるファイルの名前です。このフィールドは、[Use named-pipe] (名前付きパイプの使用)チェックボックスをオンにすると非表示になります。

[Populate column list based on the schema] (スキーマに基づくカラムリストに入力)

このオプションを選択すると、スキーマで定義されたカラムがYAMLファイルに追加されます。これはターゲットテーブルに余分なカラムがある場合(ステージングテーブルにプライマリキーのみロードする場合など)に非常に便利です。このオプションを選択すると、YAMLファイルにCOLUMNS:セクションが生成されます。

[Use named-pipe] (名前付きパイプを使う)

名前付きパイプを使うには、このチェックボックスをオンにします。このオプションは、コンポーネントが入力フローに接続されている場合にのみ適用されます。このチェックボックスがオンの場合、データファイルは生成されず、データは名前付きパイプを介してgploadに転送されます。このオプションにより、LinuxとWindowsの両方でパフォーマンスが大幅に向上します。

情報メモ注:

名前付きパイプモードのこのコンポーネントは、JNIインターフェイスを使って、任意のWindowsプラットフォームで名前付きパイプの作成と書き込みを行います。したがって、関連するJNI DLLへのパスは、Javaライブラリーパス内で設定する必要があります。コンポーネントには、32ビットと64ビットの両方のオペレーティングシステム用の2つのDLLが付属しています。これらのDLLは、コンポーネントと共にTalend Studioで自動的に提供されています。

[Named-pipe name] (名前付きパイプの名前)

使う名前付きパイプの名前を指定します。入力した名前が有効であることをご確認ください。

[Die on error] (エラー発生時に強制終了)

このチェックボックスはデフォルトで選択されています。エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。必要に応じて[Row] (行) > [Rejects] (リジェクト)リンクを使用してエラー発生時に行を取得できます。

詳細設定

[DB driver] (データベースドライバー)

ドロップダウンリストから、目的のデータベースドライバー(GreenplumPostgreSQLのいずれか)を選択します。デフォルトではGreenplumに設定されています。

[Additional Parameters] (追加パラメーター)

データベース接続に追加のパラメーターを指定します。

[Use existing control file (YAML formatted)] (既存の制御ファイルを使用(YAML形式))

コンポーネントですべてのオプションを明示的に指定する代わりに、gploadユーティリティで使う制御ファイルを提供するには、このチェックボックスをオンにします。このチェックボックスをオンにすると、[Data file] (データファイル)とその他のgpload関連オプションは適用されなくなります。制御ファイルの作成については、Greenplumのgploadマニュアルをご覧ください。

[Control file] (制御ファイル)

使う制御ファイルのパスを二重引用符で囲んで入力するか、[...]をクリックして制御ファイルを参照します。このオプションは-f引数を介してgploadユーティリティに渡されます。

[CSV mode] (CSVモード)

このチェックボックスをオンにすると、[Escape char] (エスケープ文字)[Text enclosure] (テキストエンクロージ​ャー)などCSV固有のパラメーターが含まれます。

[Field separator] (フィールド区切り)

フィールドを区切るために使う文字、文字列、または正規表現。

情報メモ警告:

これはgploadのdelim引数です。デフォルト値は|です。パフォーマンスを向上させるには、デフォルト値を使います。

[Escape char] (エスケープ文字)

エスケープする行の文字。

[Text enclosure] (テキストエンクロージ​ャー)

テキストを囲むために使用する文字。

[Header (skips the first row of data file)] (ヘッダー(データファイルの先頭行をスキップ))

このチェックボックスをオンにすると、データファイルの最初の行がスキップされます。

[Additional options] (その他のオプション)

gpload引数を対応するテーブルに設定します。[+]を必要な回数だけクリックしてして、テーブルに引数を追加します。[Parameter] (パラメーター)フィールドをクリックして、リストから引数を選択します。次に、対応する[Value] (値)フィールドをクリックして、値を引用符で囲んで入力します。

  • LOCAL_HOSTNAME: gploadが実行されているローカルマシンのホスト名またはIPアドレス。このマシンが複数のネットワークインターフェイスカード(NIC)で設定されている場合は、個々のNICのホスト名またはIPを指定して、ネットワークトラフィックがすべてのNICを同時に使えるようにすることが可能です。デフォルトでは、ローカルマシンのプライマリーホスト名またはIPが使われます。
  • [PORT (gpfdist port)] (PORT (gpfdistポート): gpfdistファイルディストリビューションプログラムが使う特定のポート番号。PORT_RANGEを指定して、指定済みの範囲から利用可能なポートを選択することも可能です。PORTPORT_RANGEの両方が定義されている場合は、PORTが優先します。PORTPORT_RANGEがどちらも定義されていない場合は、8000〜9000の使用可能なポートがデフォルトで選択されます。LOCAL_HOSTNAMEで複数のホスト名が宣言されている場合、このポート番号はすべてのホストに使われます。この設定は、すべてのNICを使って特定のディレクトリーにある同じファイルまたはファイルセットをロードする場合に推奨されます。

  • PORT_RANGE: [PORT (gpfdist port)] (PORT (gpfdistポート))の代わりに使って、gploadがgpfdistファイルディストリビューションプログラムのこのインスタンスに利用可能なポートを選択できるポート番号の範囲を指定できます。

  • NULL_AS: null値を表す文字列。デフォルトは、TEXTモードでは\N (バックスラッシュ-N)、CSVモードでは引用符なしの空の値です。この文字列に一致するソースデータ項目は、すべてnull値と見なされます。

  • FORCE_NOT_NULL: CSVモードでは、指定された各カラムが引用符で囲まれているかのように処理されるため、NULL値ではありません。CSVモードのデフォルトのnull文字列(2つの区切りの間に何もない)の場合、このために欠損値が長さゼロの文字列として評価されます。

  • [ERROR_LIMIT (2 or higher)] (エラー制限(2以上)): このロード操作に単一行エラー分離モードを有効にします。有効に設定すると、入力処理中にGreenplumセグメントインスタンスでエラー制限カウントに達しないと、すべての正常な行がロードされ、フォーマットエラーのある入力行は破棄されるか、利用可能な場合はERROR_TABLEで指定したテーブルに記録されます。エラー制限に達すると、フォーマットエラーのある入力行により、ロード操作が中止されます。単一行エラー分離は、フォーマットエラーのあるデータ行にのみ適用されます。たとえば、余分な属性や欠落した属性、不正なデータ型の属性、または無効なクライアントエンコーディングシーケンスなどです。プライマリキー違反などの制約エラーが発生した場合でも、ロード操作は中止されます。このオプションが有効でない場合、ロード操作は最初に発生したエラーで中止されます。

  • ERROR_TABLE: ERROR_LIMITが宣言され、単一行エラー分離モードで実行されている場合は、フォーマットエラーのある行を記録するエラーテーブルを指定します。次に、このエラーテーブルを調べて、ロードされなかったエラー行(ある場合)を確認できます。

  • LOG_ERRORS: TrueまたはFalse、デフォルトではFalseに設定されています。値がTrueであれば、フォーマット化エラーがある行を内部でログに記録します。詳細は、gploadControl File Format > LOG_ERRORSセクションをご覧ください。
  • MAX_LINE_LENGTH: gploadに渡されるXML変換データでの行の最大長を指定する整数。
  • EXTERNAL_SCHEMA (_ext_stg_objects): gploadで作成される外部テーブルデータベースオブジェクトのスキーマを指定します。[Value] (値)フィールドに、外部テーブルのスキーマの名前を入力します。詳細は、gploadControl File Format > EXTERNALセクションをご覧ください。
  • PRELOAD_TRUNCATEPRELOAD_REUSE_TABLESPRELOAD_STAGING_TABLEPRELOAD_FAST_MATCH: ロード操作の前に行う操作を指定します。詳細は、gploadControl File Format > PRELOADセクションをご覧ください。
  • SQL_BEFORE LOADSQL_AFTER LOAD: ロード操作の前後(またはそのいずれか)に実行するSQLコマンドを設定するために使われます。詳細は、gploadControl File Format > SQLセクションをご覧ください。

[Log file] (ログファイル)

ディレクトリー内のログファイルへのアクセスパスを参照または入力します。

[Encoding] (エンコーディング)

フィールドにエンコーディングタイプを手動で定義します。

[Specify gpload path] (gploadパスの指定)

gpload実行可能ファイルへの完全パスを指定するには、このチェックボックスをオンにします。gploadパスがPATH環境変数で指定されていない場合は、このオプションをオンにする必要があります。

[Full path to gpload executable] (gpload実行可能ファイルへの完全パス)

使用中のマシン上のgpload実行可能ファイルへの完全パス。このオプションを選択する代わりに、PATH環境変数でgploadパスを指定することをお勧めします。

[Remove datafile on successful execution] (実行が成功するとデータファイルを削除)

このオプションを選択すると、操作が正しく完了した場合に生成されるデータファイルを削除できます。

[Gzip compress the datafile] (データファイルをGzip圧縮)

このオプションを選択すると、Gzipを使ってデータファイルを圧縮し、元のサイズの50~90%までディスク容量を節約できます。ただし、CPU使用率は増加します。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

グローバル変数

グローバル変数

NB_LINE: 処理された行の数。これはAfter変数で、整数を返します。

GPLOAD_OUTPUT: gploadユーティリティが実行された時の出力情報。これはAfter変数で、文字列を返します。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

NB_LINE_INSERTED: 正しく挿入された行の数。これはAfter変数で、整数を返します。

NB_LINE_UPDATED: 正しくアップデートされた行の数。これはAfter変数で、整数を返します。

NB_DATA_ERRORS: 発生したエラーの数。これはAfter変数で、整数を返します。

GPLOAD_STATUS: ロード操作のステータス。これはAfter変数で、文字列を返します。

GPLOAD_RUNTIME: ロード操作にかかった時間(ミリ秒)。これはLong型のAfter変数です。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントは、データベースにロードするデータが特定の変換を必要としない場合に主に使います。

このコンポーネントは、スタンドアロンコンポーネントまたは出力コンポーネントとして使えます。

制限事項

ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Talend StudioIntegrationパースペクティブにある[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールをインストールをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。