レイクランディングの設定

レイクランディングデータタスクの設定を構成できます。

ランディングタスクを開き、ツールバーの [設定] をクリックします。

「設定: <タスク名>」ダイアログが開きます。使用可能な設定については以下で説明します。

一般

更新方法

ランディングは常にフルロードで開始します。フルロードが完了したら、次のいずれかの方法を使用して、ランディングデータを最新の状態に保つことができます。

ランディングデータタスクの準備操作が完了すると、更新方法を変更することはできません。

変更データキャプチャ (CDC)

ランディングデータは、CDC (変更データキャプチャ) テクノロジーを使用して最新の状態に保たれます。CDC は、すべてのデータソースでサポートされていない可能性があります。CDC は、列の名前変更、またはメタデータの変更などの DDL 操作をキャプチャしません。

データに CDC をサポートしていないビューまたはテーブルも含まれている場合、2 つのデータパイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、更新方法として [リロード] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
リロード

すべてのランディングデータは、ソースからリロードされます。これは、ソースが CDC をサポートしていない場合に役立ちますが、サポートされている任意のデータソースで使用できます。

リロードを定期的にスケジュールできます。

情報メモこの設定は、SaaS アプリケーションプレビューコネクタを使用する場合は使用できません。[接続を作成] ダイアログおよびオンラインヘルプの両方で、Preview コネクタはボタンで表示されます。

使用するフォルダー

ステージングエリアにデータをランディングするときに使用するフォルダーを選択できます。

既定のフォルダー

既定の名前 <project name>/<data task name> のフォルダーが作成されます。
ルートフォルダー

ストレージのルートフォルダーにデータを保存します。
フォルダー

使用するフォルダーの名前を指定します。

データのアップロード

最大ファイルサイズ (MB)

ファイルが閉じる前に到達できる最大サイズ。並列実行オプションと併用すると、小さいファイルの方がアップロードが速くなり (ネットワークに応じて異なる)、パフォーマンスが向上する可能性があります。ただし、小さなファイルでデータベースを乱雑にすることは一般的に悪い習慣であると考えられています。

情報メモこの設定は、Qlik Cloud を除くすべてのデータプラットフォームに関連します。
圧縮を使用

選択すると、CSV ファイルは Google BigQuery にアップロードされる前に (gzip を使用して) 圧縮されます。
情報メモ
- この設定は、Google BigQuery にのみ関連します。
- Data Movement gateway 2023.5.16 以降が必要です。

メタデータ

LOB 列

LOB 列を含めて列サイズを次に制限 (KB):

タスクに LOB 列を含めることを選択でき、さらに最大 LOB サイズを設定できます。最大サイズより大きい LOB は切り捨てられます。

情報メモ Azure Synapse Analytics をターゲットとして使用する場合、最大 LOB サイズは 7 MB を超えることはできません。

コントロールテーブル

ターゲットプラットフォームに作成するコントロールテーブルを次の中から選択します。

ランディングステータス: タスクのステータス、タスクによって消費されるメモリ量、データプラットフォームにまだ適用されていない変更の数、Data Movement gateway が現在読み取りを行っているソースエンドポイント内の位置など、現在のランディングタスクに関する詳細を提供します。
一時停止のテーブル: 一時停止されたテーブルのリストと、それらが一時停止された理由を提供します。
ランディング履歴: ランディングタスク中に処理されたレコードの数と量、CDC タスク終了時の待機時間などを含む、タスク履歴に関する情報を提供します。
DDL 履歴: タスク中に発生した、サポートされているすべての DDL 変更の履歴が含まれます。

DDL 履歴テーブルは、次のターゲットプラットフォームでのみサポートされています。

情報メモAmazon Redshift、Amazon S3、Google Cloud Storage、Snowflake には、Data Movement gateway 2024.11.14 以降が必要です。
- Databricks
- Microsoft Fabric
- Amazon Redshift
- Amazon S3
- Google Cloud Storage
- Snowflake

各コントロールテーブルの詳細については、「コントロールテーブル」を参照してください

フルロード

これらの設定は、SaaS アプリケーションプレビューコネクタで定義されたタスクでは使用できません。[Create Connection] (接続を作成) ダイアログおよびオンラインヘルプの両方で、プレビューコネクタはプレビューボタンの画像

ボタンで表示されます。

パフォーマンスのチューニング

並行してロードするテーブルの最大数: ターゲットに一度にロードする、テーブルの最大数を入力します。既定値は 5 です。
トランザクション整合性タイムアウト (秒): フルロード操作を開始する前に、開いているトランザクションが閉じるまで待機する秒数を入力します。既定値は 600 (10 分) です。オープンになっているトランザクションがある場合でも、タイムアウト値に達するとフルロードが開始されます。

情報メモフルロードの開始時にオープンしていたが、タイムアウト値に達した後にのみコミットされたトランザクションをレプリケートするには、ターゲットテーブルをリロードする必要があります。
フルロード時のコミットレート:一緒に転送できるイベントの最大数。既定値は 10000 です。

フルロードの完了後

主キーまたは一意を作成: フルロードが完了するまで、データプラットフォームの主キーまたは一意のインデックスの作成を遅らせる場合は、このオプションを選択します。

初期ロード用

SaaS アプリケーションソースからデータを移動する場合、初期フルロードを実行する方法を設定できます。

Data Movement gateway を使用してデータソースにアクセスする場合、これらの設定にはバージョン 2022.11.74 以降が必要です。

キャッシュされたデータを使用

このオプションを使用すると、 [フルデータスキャン] を選択してメタデータを生成するときに読み込まれたキャッシュデータを使用できます。

データはすでにソースから読み込まれているため、API の使用とクォータに関するオーバーヘッドが軽減されます。最初のデータスキャン以降の変更は、変更データキャプチャ (CDC) によって取得できます。

ソースからデータをロード

このオプションは、データソースから新しいロードを実行します。このオプションは次の場合に有効です。

メタデータのスキャンが最近実行されていない。
ソースデータセットが小さく頻繁に変更されるため、変更履歴をすべて管理したくない。

エラー処理

データエラー

データエラー処理は、更新方法が変更データキャプチャ (CDC) の場合にのみサポートされます。

データ切り捨てエラーの場合: 1 つ以上の特定のレコードで切り捨てが発生した場合に実行する処理を選択します。リストから次のいずれかを選択できます。

無視: タスクは続行され、エラーは無視されます。
テーブルを一時停止: タスクは続行されますが、エラーレコードのあるテーブルのデータはエラー状態に移行し、そのデータはレプリケートされません
タスクを停止: タスクは停止され、手動による操作が必要となります。

その他のデータエラーの場合: 1 つ以上の特定のレコードでエラーが発生した場合に実行する処理を選択します。リストから次のいずれかを選択できます。

無視: タスクは続行され、エラーは無視されます。
テーブルを一時停止: タスクは続行されますが、エラーレコードのあるテーブルのデータはエラー状態に移行し、そのデータはレプリケートされません
タスクを停止: タスクは停止され、手動による操作が必要となります。

その他のデータエラーが発生した場合にエラー処理をエスカレートします (テーブルごと): このチェックボックスをオンにすると、非切り捨てデータエラーの数 (テーブルごと) が指定された量に達したときにエラー処理がエスカレートされます。有効な値は 1 ～ 10,000 です。

エスカレーションアクション: エラー処理がエスカレートされたときに実行される処理を選択します。使用できるアクションは、上記の [その他のデータエラーの場合] ドロップダウンリストから選択したアクションに応じて異なります。

テーブルを一時停止 (既定): タスクは続行されますが、エラーレコードのあるテーブルのデータはエラー状態に移行し、そのデータは landed されません。
タスクを停止: タスクは停止され、手動による操作が必要となります。

テーブルエラー

テーブルエラーを返す前の再試行回数

このオプションを使用すると、テーブルエラー処理ポリシーがトリガーされるタイミングを制御できます。既定では、テーブルエラーが発生すると、3 回の再試行後にテーブルが一時停止されるか、タスクが停止されます (選択したアクションに応じて)。SaaS アプリケーションの計画メンテナンスにより、テーブルエラーが発生する場合があります。このような場合、テーブルエラー処理ポリシーがトリガーされる前にメンテナンスを完了するには、既定の再試行回数では不十分な可能性があります。タスクが実行されるたびに再試行が実行されるため、これはタスクのスケジュール間隔にも依存します。たとえば、タスクを 1 時間ごとに実行するようにスケジュールし、タスクの実行開始と同時に SaaS アプリケーションがメンテナンスのためにオフラインになった場合、既定の 3 回の再試行により、テーブルエラー処理ポリシーがトリガーされることなく、SaaS アプリケーションを最大 3 時間オフラインにすることができます。メンテナンス期間が長くなると、テーブルエラー処理ポリシーがトリガーされないように、再試行回数を増やす (またはスケジュールを変更する) 必要があります。

まとめると、SaaS アプリケーションが定期的にメンテナンスされることがわかっている場合、テーブルエラー処理ポリシーがトリガーされることなくメンテナンスを完了できるように、スケジュールに従って再試行回数を増やすことがベストプラクティスとなります。

このオプションは、Lite または Standard SaaS アプリケーションコネクタで構成されたタスクにのみ表示されます。
Data Movement gateway を使用している場合は、バージョン 2024.11.70 以降が必要です。

テーブルエラーが発生した場合: ドロップダウンリストから次のいずれかを選択します。

テーブルを一時停止 (既定): タスクは続行されますが、エラーレコードのあるテーブルのデータはエラー状態に移行し、そのデータはレプリケートされません。
タスクを停止: タスクは停止され、手動による操作が必要となります。

テーブルエラーが次の値に達した場合に処理をエスカレート (テーブルごと): このチェックボックスをオンにすると、テーブルエラーの数 (テーブルごと) が指定された量に達した場合にエラー処理をエスカレートします。有効な値は 1 ～ 10,000 です。

エスカレーションアクション: テーブルエラーのエスカレーションポリシーは [タスクを停止] に設定されており、変更できません。

環境

最大再試行数: このオプションを選択すると、復元可能な環境エラーが発生した場合にタスクを再試行する最大回数を指定できます。タスクが指定された回数再試行されると、タスクは停止され、手動による操作が必要となります。

タスクを再試行しない場合は、チェックボックスをオフにするか、「0」を指定します。

タスクを無限に再試行するには、「-1」を指定します。
- 再試行の間隔 (秒): カウンターを使用して、システムがタスクを再試行するまでに待機する秒数を選択または入力します。
  
  有効な値は 0 ～ 2,000 です。
長時間の停止の場合は再試行間隔を長くする: 長時間停止した場合の再試行間隔を長くするには、このチェックボックスをオンにします。このオプションを有効にすると、最大再試行間隔に達するまで、各再試行と次の再試行の間隔が 2 倍になります (指定された最大間隔に従って再試行を継続します)。
- 最大再試行間隔 (秒): [長時間の停止の場合は再試行間隔を長くする] オプションが有効になっている場合、カウンターを使用して、タスクの再試行間隔を待機する秒数を選択または入力します。有効な値は 0 ～ 2,000 です。

変更処理のチューニング

このタブは、更新方法が変更データキャプチャ (CDC) の場合にのみ使用できます。

トランザクションオフロードのチューニング

次の場合に進行中のトランザクションをディスクにオフロード:

トランザクションデータは通常、ソースまたはターゲットに完全にコミットされるまでメモリ内に保持されます。ただし、割り当てられたメモリより大きいトランザクション、または指定された制限時間内にコミットされないトランザクションは、ディスクにオフロードされます。

全トランザクションの総メモリサイズが超過 (MB): すべてのトランザクションがディスクにオフロードされる前に、メモリで占有できる最大サイズ。規定値は 1024 です。
トランザクション期間が次を超えています (秒): 各トランザクションがディスクにオフロードされるまでに、メモリに留まることができる最大時間。期間は、Qlik Talend Data Integration がトランザクションのキャプチャを開始した時間から計算されます。規定値は 60 です。

バッチチューニング

このタブの設定の一部

Qlik Cloud を除くすべてのターゲットに関連する設定:

バッチ変更を一定間隔で適用する:

More than (最小時間): バッチ変更を適用する際の、各適用間の最小待機時間。既定値は 1 です。
最小時間の値を増やすと、変更がターゲットに適用される頻度が減少し、一方でバッチのサイズが増加します。これにより、大規模なバッチの処理用に最適化されたターゲットデータベースに変更を適用するときのパフォーマンスが向上します。
Less than (最大時間): バッチ変更を適用する際の、各適用間の最大待機時間 (タイムアウトを宣言するまで)。つまり、許容できる最大の待機時間のことです。既定値は 30 です。この値により、Larger than (最小時間) の値に達した後、変更を適用するまでの最大待機時間が決定されます。

処理メモリ (MB) が次を超えた場合にバッチを強制適用: 前処理に使用するメモリの最大量。規定値は 500 MB です。
最大バッチサイズについては、この値をデータタスクに割り当て可能な最大のメモリ量に設定します。これにより、大規模なバッチの処理用に最適化されたターゲットデータベースに変更を適用するときのパフォーマンスが向上します。
一括変更を複数のテーブルに同時に適用: このオプションを選択すると、複数のソーステーブルからの変更を適用するときのパフォーマンスが向上します。
- テーブルの最大数: 一括変更を同時に適用するテーブルの最大数です。既定は 5 です。
情報メモGoogle BigQuery をデータプラットフォームとして使用する場合、このオプションはサポートされません。
変更処理ステートメントごとに適用される変更数を次に制限: 1 つの変更処理ステートメントで適用される変更の数を制限するには、このオプションを選択します。既定値は 10,000 です。
情報メモGoogle BigQuery をデータプラットフォームとして使用する場合にのみ、このオプションがサポートされます。

Qlik Cloud のみに関連する設定:

トランザクションごとの最小変更数: 各トランザクションに含める変更の最小数。既定値は 1000 です。
情報メモ
変更の数がトランザクションごとの最小変更数の値以上の場合、または以下で説明する適用前にトランザクションをバッチ処理する最大時間 (秒) の値に達した場合の、いずれかの先に発生したほうのタイミングでターゲットに変更を適用します。ターゲットに適用される変更の頻度はこれら 2 つのパラメーターによって制御されるため、ソースレコードへの変更がターゲットレコードにすぐに反映されない場合があります。
適用前にトランザクションをバッチ処理する最大時間 (秒): タイムアウトを宣言するまでにトランザクションをバッチで収集する最大時間。既定値は 1 です。

Interval (インターバル)

この設定は、SaaS アプリケーションプレビューコネクタを使用する場合は使用できません。[接続を作成] ダイアログおよびオンラインヘルプの両方で、Preview コネクタはプレビューボタンの画像

ボタンで表示されます。

次の頻度で変更を読み込む (分)
ソースから変更を読み取る間隔を分単位で設定します。有効な範囲は 1 ～ 1440 です。
情報メモ
このオプションは次の場合にのみ使用できます。
- Data Movement gatewayを使う
- SaaS アプリケーションソースからのデータのランディング
- タスクは変更データキャプチャ (CDC)更新方法で定義されます

その他のチューニング

ステートメントのキャッシュサイズ (ステートメントの数): 後で実行するためにサーバーに保存する準備済みステートメントの最大数 (ターゲットに変更を適用する場合)。既定値は 50 です。最大値は 200 です。
プライマリキー列を更新する際の DELETE と INSERT: このオプションを使用するには、ソースデータベースで完全なサプリメンタルロギングをオンにする必要があります。

スキーマの進化

スキーマ内の次のタイプの DDL 変更を処理する方法を選択します。スキーマの進化の設定を変更した場合は、再度タスクを準備する必要があります。次の表には、サポートされている DDL 変更に対して使用できるアクションが示されています。

タスクが SaaS アプリケーション Preview コネクタで構成されている場合、列のデータ型を変更 DDL 変更のみがサポートされます。コネクタがプレビュー中かどうかを確認するには、コネクタのヘルプを参照してください。

DDL の変更	ターゲットに適用	無視	テーブルを一時停止	タスクを停止
列を追加	あり	あり	あり	あり
列名を変更	なし	なし	あり	あり
テーブルの名前を変更	なし	なし	あり	あり
列のデータ型を変更	なし	あり	あり	あり
テーブルを作成 [選択ルール] を使用してパターンに一致するデータセットを追加した場合、パターンを満たす新しいテーブルが検出され、追加されます。	あり	あり	なし	なし

文字置換

ターゲットデータベース内のソース文字の置換または削除、および/または選択した文字セットでサポートされていないソース文字の置換または削除ができます。

文字はすべて Unicode コードポイントとして指定する必要があります。
文字置換は、コントロールテーブルでも実行されます。

無効な値は、テーブルのセルの右上に赤い三角形で示されます。三角形の上にマウスカーソルを置くと、エラーメッセージが表示されます。

タスクに定義されたテーブルレベルまたはグローバル変換は、文字の置換が完了した後に実行されます。
[ソース文字の置換または削除] テーブルで定義された置換アクションは、 [選択した文字セットでサポートされていないソース文字の置換または削除] テーブルで定義された置換アクションの前に実行されます。
文字置換は LOB データ型をサポートしません。

ソース文字の置換または削除

[ソース文字の置換または削除] テーブルを使用して、特定のソース文字の置換を定義します。これは、文字の Unicode 表現がソースプラットフォームとターゲットプラットフォームで異なる場合などに便利です。たとえば、Linux では、Shift_JIS 文字セットのマイナス文字は U+2212 と表されますが、Windows では U+FF0D と表されます。

置換アクション
内容	実行すること
置換アクションを定義する。	テーブルの上にある [文字を追加] ボタンをクリックします。 [ソース文字] および [置換文字] の項目にそれぞれソース文字とターゲット文字を指定します。たとえば、文字「a」を文字「e」に置き換えるには、 0061 と 0065 をそれぞれ指定します。情報メモ指定したソース文字を削除するには、 [置換文字] 列に「0」と入力します。追加の文字を置換または削除するには、手順 1 ～ 2 を繰り返します。
指定されたソースまたはターゲットの文字を編集する	行の最後にあるをクリックして、 [編集] を選択します。
テーブルからエントリを削除する	行の最後にあるをクリックして、 [削除] を選択します。

選択した文字セットでサポートされていないソース文字の置換または削除

[文字セットでサポートされていないソース文字] テーブルを使用して、選択した文字セットでサポートされていないすべての文字に対して 1 つの置換文字を定義します。

サポートされていない文字の置換アクション
内容	実行すること
置換アクションを定義または編集する。	テーブルの [文字セット] ドロップダウンリストから文字セットを選択します。選択した文字セットでサポートされていない文字は、ターゲット上で以下の手順 2 で指定する文字に置き換えられます。 [置換文字] 列で、列内の任意の場所をクリックし、置換文字を指定します。たとえば、サポートされていない文字をすべて「a」に置き換えるには、「0061」と入力します。情報メモサポートされていない文字をすべて削除するには、「0」と入力します。
置換アクションを無効にする。	[文字セット] ドロップダウンリストから空のエントリを選択します。

詳細オプション

これらのオプションは特定のバージョンまたは環境にのみ関連するため、UI では公開されていません。したがって、Qlik サポートまたは製品ドキュメントにより明示的に指示されない限り、これらのオプションを設定しないでください。

オプションを設定するには、オプションを [機能名の追加] 項目にコピーし、 [追加] をクリックします。次に、受け取った指示に従って値を設定するか、オプションを有効にします。

データセットセグメントの並列ロード

この設定は SaaS アプリケーションソースでは使用できず、ソースデータベースとターゲットデータベースの特定のサブセットでのみ使用できます。

フルロード中は、データセットをセグメントに分割して並列でロードすることで、大規模なデータセットのロードを高速化できます。テーブルは、データ範囲、すべてのパーティション、すべてのサブパーティション、または特定のパーティションごとに分割できます。

詳細については、「並列のランディングデータセットセグメント」を参照してください。

タスクのスケジューリング

次のユースケースでは、ターゲットデータを最新の状態に保つためにスケジュール間隔を定義する必要があります。

Data Movement gateway を使用せずにデータソースにアクセスする
変更を読み取る頻度設定をサポートしない SaaS アプリケーションコネクタの使用

スケジュールにより、ソースデータセットの変更に応じてターゲットデータセットを更新する頻度が決定されます。更新頻度はスケジュールによって決定されますが、更新方法はデータセットの種類によって決まります。ソースデータセットが CDC (変更データキャプチャ) をサポートしている場合は、ソースデータへの変更のみがレプリケーションされ、対応するターゲットテーブルに適用されます。ソースデータセットが CDC をサポートしていない場合 (ビューなど)、すべてのソースデータを対応するターゲットテーブルに再ロードすることによって変更が適用されます。一部のソースデータセットが CDC をサポートし、一部がサポートしない場合は、2 つの個別のサブタスクが作成されます。1 つは CDC をサポートしないデータセットをリロードするためのもので、もう 1 つは CDC をサポートするデータセットへの変更をキャプチャするためのものです。この場合、データの一貫性を確保するために、両方のタスクに対して同じスケジュール間隔を維持しないことを強くお勧めします (将来、更新頻度を変更する場合)。

データソースの種類とサブスクリプションティアに応じた最小スケジュール間隔の詳細については、「許容される最小スケジュール間隔」を参照してください。

スケジュールを変更するには:

データプロジェクトを開き、次のいずれかを実行します。
- タスクビューで、データタスクの [] をクリックし、 [スケジュール] を選択します。
- パイプラインビューで、データタスクの [] をクリックし、 [スケジュール] を選択します。
- ランディングタスクを開き、 [スケジュール] ツールバーボタンをクリックします。
必要に応じてスケジュール設定を変更し、 [OK] をクリックします。

次のスケジュール実行の開始予定時にデータタスクが実行中の場合、タスクが完了するまで次のスケジュール実行はスキップされます。

Data Movement gateway に基づいて実行されなかったタスクを実行する

ネットワークの問題により、Data Movement gateway への接続が失われる場合があります。次回のスケジュールされた実行の前に Data Movement gateway への接続が復元されない場合、データタスクはスケジュールどおりに実行できません。このような場合、接続が復元された直後に実行するかどうかを選択できます。

すべての Data Movement gateway のデフォルト設定は、管理アクティビティセンターで定義されています。以下の説明に従って、個々のタスクに対してこれらの設定を上書きできます。

これを行うには

プロジェクトを開き、次のいずれかを実行します。
- タスクビューで、データタスクの [] をクリックし、 [スケジュール] を選択します。
- パイプラインビューで、データタスクの [] をクリックし、 [スケジュール] を選択します。
- データタスクを開き、 [スケジュール] ツールバーボタンをクリックします。
[スケジュール - <タスク>] ダイアログが開きます。
[このタスクにカスタム設定を使用] をオンにします。
ダイアログの下部で、次のいずれかの [未実行のスケジュール済みタスクを実行] オプションを選択します。
- 可能な限り早く、その後はスケジュールどおりに: 次のスケジュールされたインスタンスの前にタスクを実行することが重要である場合
- スケジュールどおり: 次のスケジュールされたインスタンスでタスクを実行
設定を保存します。

参照先:実行されなかったスケジュールのタスクの実行。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

レイク ランディングの設定

一般