Lake 登陸設定
您可為湖登陸資料任務進行設定。
-
開啟登陸任務並在工具列中按一下設定。
就會開啟 設定:<Task-Name> 對話方塊。可用設定如下所述。
一般
更新方法
登陸任務一律以完整載入開始。完整載入完成後,您可以使用下列方法之一,將登陸的資料保持為最新狀態:
-
變更資料擷取 (CDC)
登陸資料會使用 CDC (變更資料擷取) 技術保持最新狀態。CDC 不一定受到所有資料來源的支援。CDC 不會擷取 DDL 操作,例如將欄重新命名或變更中繼資料。
若資料也包含不支援 CDC 的檢視或表格,將會建立兩個資料管道。一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入作為更新方法的所有其他表格和檢視。
-
載入
會從來源載入所有登陸的資料。若來源不支援 CDC,但可搭配任何支援的資料來源使用,則這很實用。
您可以定期排程載入。
要使用的資料夾
選取將資料登陸到暫存區域時要使用的資料夾。
-
預設資料夾
如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。
-
根資料夾
將資料存放在儲存區的根資料夾。
-
資料夾
指定要使用的資料夾名稱。
資料上傳
-
檔案大小上限 (MB)
檔案在關閉之前可達到的大小上限。較小的檔案可能上傳得更快 (取決於網路),並且可在結合平行執行選項使用時改善效能。不過,以小檔案叢集資料庫通常被視為不良做法。
資訊備註此設定與除 Qlik Cloud 之外的所有資料平台相關。 -
使用壓縮
選取後,CSV 檔案在被上傳至 Google BigQuery 之前將會被壓縮 (使用 gzip)。
資訊備註- 此設定僅與 Google BigQuery 相關。
- 需要 資料移動閘道 2023.5.16 或更新版本。
中繼資料
LOB 欄
-
包含 LOB 欄並將欄大小限制為 (KB):
您可以選擇在工作中包含 LOB 欄,並設定 LOB 大小上限。大於大小上限的 LOB 將會被截斷。
資訊備註當使用 Azure Synapse Analytics 作為目標時,LOB 大小上限不能超過 7 MB。
控制表
選取您想要在目標平台上建立下列哪些控制表:
- 登陸狀態:提供有關目前登陸工作的詳細資訊,包含工作狀態、工作消耗的記憶體量、尚未套用至資料平台的變更數量,以及 資料移動閘道 目前正在讀取的來源端點位置。
- 暫停的表格:提供暫停的表格清單,以及其被暫停的原因。
- 登陸歷程記錄:提供有關工作歷程記錄的資訊,包含在登陸工作期間處理的記錄數量和磁碟區、CDC 工作結束時的延遲等。
-
DDL 歷程記錄: 包含在工作期間發生的所有支援的 DDL 變更歷程記錄。
僅下列目標平台支援 DDL 歷史記錄表格:
-
Databricks
- Microsoft Fabric
- Amazon Redshift
- 如果您正在使用 資料移動閘道,則以下目標需要版本 2024.11.14 或更高版本:
- Amazon S3
- Google Cloud Storage
- Snowflake
- Kafka - 如果您正在使用 資料移動閘道,則需要版本 2025.5.42 或更高版本。
- 如果您正在使用 資料移動閘道,則以下目標需要版本 2025.11.1 或更高版本:
- Google BigQuery
- 適用於 PostgreSQL 的 Google Cloud Alloy DB (透過 PostgreSQL 連接器)
- 適用於 PostgreSQL 的 Google Cloud SQL (透過 PostgreSQL 連接器)
- Microsoft Azure Database for PostgreSQL (透過 PostgreSQL 連接器)
- PostgreSQL
-
如需每個控制表的詳細說明,請參閱 控制表格
完整載入
效能微調
- 平行載入的表格數量上限:輸入一次載入至目標的表格數量上限。預設值為 5。
-
交易一致性逾時 (秒):輸入在開始完整載入作業之前,等待開啟的交易關閉的秒數。預設值為 600 (10 分鐘)。即使仍有開啟的交易,完整載入也會在達到逾時值後開始。
資訊備註若要複製在完整載入開始時開啟,但僅在達到逾時值之後才認可的交易,您需要重新載入目標表格。 - 完整載入期間的認可率:可以一起傳輸的事件數量上限。預設值為 10000。
完整載入完成後
建立主索引鍵或唯一:如果您想要將資料平台上主索引鍵或唯一索引的建立延遲到完整載入完成之後,請選取此選項。
對於初始載入
從 SaaS 應用程式來源移動資料時,您可以設定如何執行初始完整載入:
| 使用快取的資料 |
此選項可讓您使用透過所選的完整資料掃描產生中繼資料時讀取的快取資料。 這會對 API 使用和配額產生較少的負荷,因為已從來源讀取資料。可以透過變更資料擷取 (CDC) 選取自初始資料掃描以來的任何變更。 |
| 從來源載入資料 |
此選項從資料來源執行新的載入。如有以下情況,此選項很實用:
|
錯誤處理
資料錯誤
僅變更資料擷取 (CDC) 更新方法支援資料錯誤處理。
對於資料截斷錯誤:選取當截斷發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
對於其他資料錯誤:選取當錯誤發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在達到其他資料錯誤 (每個表格) 時呈報錯誤處理:選取此核取方塊,以在非截斷資料錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:選擇呈報錯誤處理時應發生什麼事。請注意,可用動作取決於從上述對於其他資料錯誤下拉式清單中選取的動作。
-
暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會landed其資料。
- 停止任務:任務會停止,需要手動干預。
表格錯誤
傳回表格錯誤前的重試次數
此選項可讓您控制何時觸發表格錯誤處理原則。依預設,遇到表格錯誤後,表格將會暫停或工作將會在三次重試後停止 (根據選取的動作)。有時,會因為 SaaS 應用程式的計劃性維護而發生表格錯誤。在這些情況下,預設的重試次數可能不足以在觸發表格錯誤處理原則之前完成維護。這也取決於工作的排程間隔,因為每次工作執行時都會執行一次重試。因此,例如,如果您排程工作每小時執行一次,且 SaaS 應用程式在工作開始執行時因維護而離線,則預設的三次重試將允許 SaaS 應用程式離線長達三小時,而不會觸發表格錯誤處理原則。更長的維護期間將需要您增加重試次數 (或變更排程),以防止觸發表格錯誤處理原則。
總而言之,如果您知道您的 SaaS 應用程式會定期維護,最佳做法是根據排程增加重試次數,以便在不觸發表格錯誤處理原則的情況下完成維護。
-
此選項將僅顯示給設定為 Lite 或 Standard SaaS 應用程式連接器的工作。
-
如果您使用 資料移動閘道,則需要版本 2024.11.70 或更高版本。
遇到表格錯誤時:從下拉式清單選取下列內容之一:
- 暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在表格錯誤達到時呈報錯誤處理 (每個表格):選取此核取方塊,以在表格錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:表格錯誤的呈報政策設定為停止任務且無法變更。
環境
-
重試計數上限:選取此選項,然後指定在可修復的環境錯誤發生時重試任務的嘗試次數上限。在重試任務達到指定次數之後,任務會停止,需要手動干預。
若絕對不要重試任務,清除核取方塊或指定「0」。
若要重試任務無限次數,指定「-1」
-
重試嘗試之間的間隔 (秒):使用計數器以選取或輸入系統在每次嘗試重試任務之間等待的秒數。
有效值為 0-2,000。
-
- 對長時間中斷增加重試間隔:選取此核取方塊以對長時間中斷增加重試間隔。若啟用此選項, 會加倍每次重試嘗試之間的間隔,直到達到重試間隔上限為止 (並根據指定的間隔上限繼續重試)。
- 重試間隔上限 (秒):在啟用對長時間中斷增加重試間隔選項時,使用計數器以選取或輸入每次嘗試重試任務之間等待的秒數。有效值為 0-2,000。
變更處理微調
交易卸載微調
對磁碟的卸載交易進行中,條件是:通常會將交易資料保留在記憶體中,直到對來源或目標完全認可為止。不過,大於配置記憶體或未在指定期限內認可的交易將會卸載到磁碟。
- 所有交易記憶體總大小超過 (MB):在卸載到磁碟之前,所有交易可以在記憶體中占用的大小上限。預設值為 1024。
- 交易期間超過 (秒):在卸載到磁碟之前,每筆交易可以在記憶體中停留的時間上限。持續時間是從 Qlik Talend Data Integration 開始擷取交易的時間計算。預設值為 60。
批次微調
此索引標籤中的某些設定
與除 Qlik Cloud 之外的所有目標相關的設定:
- 按間隔套用批次變更:
大於:每次套用批次變更之間等待的最短時間。預設值為 1。
增加大於值會降低將變更套用至目標的頻率,同時增加批次的大小。這可以在將變更套用至針對處理大型批次進行最佳化的目標資料庫時改善效能。
- 小於:每次套用批次變更之間等待的最長時間 (在宣告逾時之前)。換句話說,可接受的延遲上限。預設值為 30。此值決定在達到大於值之後,套用變更之前等待的最長時間。
當處理記憶體超過 (MB) 時強制套用批次:用於預先處理的記憶體量上限。預設值為 500 MB。
若要獲得批次大小上限,請將此值設定為您可以配置給資料工作的最高記憶體量。這可以在將變更套用至針對處理大型批次進行最佳化的目標資料庫時改善效能。
同時將批次變更套用至多個表格:選取此選項應可在套用來自多個來源表格的變更時改善效能。
表格數量上限:同時套用批次變更的表格數量上限。預設值為五。
資訊備註當使用 Google BigQuery 作為您的資料平台時,不支援此選項。將每個變更處理陳述式套用的變更數量限制為:選取此選項以限制在單一變更處理陳述式中套用的變更數量。預設值為 10,000。
資訊備註僅當使用 Google BigQuery 作為您的資料平台時,才支援此選項。
僅與 Qlik Cloud 相關的設定:
每個交易的變更數量下限:要在每個交易中納入的變更數量下限。預設值為 1000。
資訊備註若變更數量等於或大於每個交易的變更數量下限值,或者若達到套用之前的批次交易時間上限 (秒) 值 (以先發生者為主), 會將變更套用至目標。因為套用至目標的變更頻率由這兩個參數控制,對來源記錄的變更可能不會立即反映在目標記錄中。
- 套用之前的批次交易時間上限 (秒):宣告逾時之前批次收集交易的時間上限。預設值為 1。
間隔
讀取變更的頻率 (分鐘)
設定從來源讀取變更之間的間隔 (以分鐘為單位)。有效範圍為 1 到 1440。
資訊備註此選項僅在下列情況下可用:
- 使用 資料移動閘道
- 從 SaaS 應用程式來源登陸資料
- 工作是使用變更資料擷取 (CDC) 更新方法定義的
雜項微調
- 陳述式快取大小 (陳述式數量):要儲存在伺服器以供之後執行的所準備之陳述式數量上限 (將變更套用至目標時)。預設為 50。上限為 200。
在更新主要金鑰欄時刪除和插入:此選項需要在來源資料庫中開啟完全補充記錄。
結構描述演進
選取如何處理結構描述中下列類型的 DDL 變更。當您變更了結構描述演進設定時,您必須再次準備工作。下表說明支援的 DDL 變更可用的動作。
| DDL 變更 | 套用至目標 | 忽略 | 暫停表格 | 停止工作 |
|---|---|---|---|---|
| 新增欄 | 是 | 是 | 是 | 是 |
| 重新命名欄 | 否 | 否 | 是 | 是 |
| 重新命名表格 | 否 | 否 | 是 | 是 |
| 變更欄資料類型 | 否 | 是 | 是 | 是 |
| 建立表格 如果您使用了選取規則來新增符合模式的資料集,將會偵測並新增符合該模式的新表格。 | 是 | 是 | 否 | 否 |
字元替代
您可以替代或刪除目標資料庫中的來源字元,以及/或您可以替代或刪除所選字元集合不支援的來源字元。
必須指定所有字元作為 Unicode 字碼指標。
- 也會在控制表格執行字元替代。
將會透過表格儲存格右上方的紅色三角形指示無效的值。將滑鼠游標暫留在三角形上方,將會顯示錯誤訊息。
將會在字元替代完成之後,執行為任務定義的任何表格層級或全域轉換。
會在替代或刪除所選字元集合不支援的來源字元表格中定義的替代動作之前,執行替代或刪除來源字元表格中定義的替代動作。
- 字元替代不支援 LOB 資料類型。
替代或刪除來源字元
使用替代或刪除來源字元表格,以定義更換特定來源字元。例如,若 Unicode 字元表示法在來源和目標平台不同,這可能會很實用。例如,在 Linux,Shift_JIS 字元集合中的減號字元以 U+2212 表示,但在 Windows 則以 U+FF0D 表示。
| 至 | 進行此 |
|---|---|
定義替代動作。 |
|
編輯指定的來源或目標字元 | 按一下列末尾的 |
從表格中刪除項目 | 按一下列末尾的 |
替代或刪除所選字元集合不支援的來源字元
使用字元集合不支援的來源字元表格,為所選字元集合不支援的所有字元定義單一替換字元。
| 至 | 進行此 |
|---|---|
定義或編輯替代動作。 |
|
停用替代動作。 | 從字元集合下拉式清單中選取空白項目。 |
更多選項
不會在 UI 中暴露這些選項,因為這僅與特定版本或環境相關。因此,請勿設定這些選項,除非 Qlik 支援或產品文件明確指示這麼做。
若要設定選項,只要在新增特徵名稱欄位中複製選項並按一下新增即可。然後根據您收到的說明設定值或啟用選項。
平行載入資料集區段
在完整載入期間,您可以透過將資料集分割成區段來加速大型資料集的載入,這些區段將會平行載入。表格可以依資料範圍、所有分割區、所有子分割區或特定分割區進行分割。
如需詳細資訊,請參閱 平行登陸資料集區段。
排程工作
在下列使用案例中,您必須定義排程間隔以保持目標資料為最新狀態:
- 在沒有 資料移動閘道 的情況下存取資料來源
- 使用不支援讀取變更的頻率設定的 SaaS 應用程式連接器
排程決定目標資料集使用來源資料集的變更進行更新的頻率。排程決定更新頻率,而資料集類型決定更新方法。如果來源資料集支援 CDC (變更資料擷取),則僅會複製來源資料的變更並將其套用至對應的目標表格。如果來源資料集不支援 CDC (例如,檢視),則將透過將所有來源資料重新載入至對應的目標表格來套用變更。如果某些來源資料集支援 CDC 而某些不支援,則將建立兩個獨立的子工作:一個用於重新載入不支援 CDC 的資料集,另一個用於擷取支援 CDC 的資料集的變更。在此情況下,為確保資料一致性,強烈建議不要為這兩個工作維持相同的排程間隔 (如果您決定在未來變更更新頻率)。
如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔。
若要變更排程:
開啟您的資料專案,然後執行下列其中一項操作:
- 在工作檢視中,按一下資料工作上的
,然後選取排程。
- 在管道檢視中,按一下資料工作上的
,然後選取排程。
- 開啟登陸工作,然後按一下排程 工具列按鈕。
- 在工作檢視中,按一下資料工作上的
- 視需要變更排程設定,然後按一下 確定。
為基於 資料移動閘道 的工作執行錯過的執行
有時候,網路問題可能會導致與 資料移動閘道 的連線遺失。如果在下次排定的執行之前未還原與 資料移動閘道 的連線,則資料任務將無法按預定執行。在這種情況下,您可以選擇是否要在還原連線後立即執行。
所有 資料移動閘道 的預設設定皆定義於 管理 活動中心。您可以如下所述覆寫個別工作的這些設定。
若要執行此操作
開啟您的專案,然後執行下列其中一項操作:
在工作檢視中,按一下資料工作上的
,然後選取排程。
在管道檢視中,按一下資料工作上的
,然後選取排程。
開啟資料工作,然後按一下排程 工具列按鈕。
排程 - <工作>對話方塊將會開啟。
開啟為此工作使用自訂設定切換開關。
在對話方塊底部,選擇下列其中一個執行錯過的排程工作選項。
盡快然後按排程 (如果在下一個排程執行個體之前執行工作很重要)
按排程 (在下一個排程執行個體執行工作)
儲存您的設定。
另請參閱:執行錯過排程後的任務執行。
按鈕指示。