湖泊登陸設定
以下湖泊登陸工作設定適用於使用資料庫或 SaaS 來源的 Qlik 開放湖倉庫 專案。
您可為湖登陸資料任務進行設定。
-
開啟登陸任務並在工具列中按一下設定。
就會開啟 設定:<Task-Name> 對話方塊。可用設定如下所述。
一般
更新方法
登陸任務一律以完整載入開始。完整載入完成後,您可以使用下列方法之一,將登陸的資料保持為最新狀態:
-
變更資料擷取 (CDC)
登陸資料會使用 CDC (變更資料擷取) 技術保持最新狀態。CDC 不一定受到所有資料來源的支援。CDC 不會擷取 DDL 操作,例如將欄重新命名或變更中繼資料。
若資料也包含不支援 CDC 的檢視或表格,將會建立兩個資料管道。一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入作為更新方法的所有其他表格和檢視。
-
載入
會從來源載入所有登陸的資料。若來源不支援 CDC,但可搭配任何支援的資料來源使用,則這很實用。
您可以定期排程載入。
要使用的資料夾
選取將資料登陸到暫存區域時要使用的資料夾。
-
預設資料夾
如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。
-
根資料夾
將資料存放在儲存區的根資料夾。
-
資料夾
指定要使用的資料夾名稱。
資料上傳
檔案屬性
設定上傳資料的檔案設定。
-
欄位分隔符號
來源資料檔案中使用的欄位分隔符號。預設為「,」。 -
Null 值
用於取代來源資料檔案中 null 值的選用預設字串。 -
記錄分隔符號
來源資料檔案中使用的記錄分隔符號。預設為「\n」。 -
引號字元
來源資料檔案中使用的引號字元。預設為「"」。 -
引號逸出字元
來源資料檔案中使用的引號逸出字元。預設為「"」。 -
最大檔案大小 (KB)
檔案在關閉之前可達到的大小上限。較小的檔案可能上傳得更快 (取決於網路),並且可在結合平行執行選項使用時改善效能。不過,以小檔案叢集資料庫通常被視為不良做法。
-
壓縮檔案使用
選取時,CSV 檔案將使用 GZIP 進行壓縮。
資訊備註- 需要 資料移動閘道 2023.5.16 或更新版本。
中介資料
LOB 欄位
-
包含 LOB 欄位並限制欄位大小為 (KB):
您可以選擇在工作中包含 LOB 欄位,並設定最大 LOB 大小。大於最大大小的 LOB 將被截斷。
完整載入
效能微調
- 平行載入的最大資料表數量:輸入一次載入至目標的最大資料表數量。預設值為 5。
-
交易一致性逾時 (秒):輸入在開始「完整載入」作業之前,等待開啟的交易關閉的秒數。預設值為 600 (10 分鐘)。即使仍有交易處於開啟狀態,完整載入也會在達到逾時值後開始。
資訊備註若要複製在「完整載入」開始時處於開啟狀態,但僅在達到逾時值之後才提交的交易,您需要重新載入目標資料表。 - 完整載入期間的提交率:可以一起傳輸的最大事件數。預設值為 10000。
完整載入完成後
建立主索引鍵或唯一值:如果您想要延遲在資料平台上建立主索引鍵或唯一索引,直到完整載入完成後,請選取此選項。
錯誤處理
僅變更資料擷取 (CDC) 更新方法支援資料錯誤處理。
對於資料截斷錯誤:選取當截斷發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
對於其他資料錯誤:選取當錯誤發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在達到其他資料錯誤 (每個表格) 時呈報錯誤處理:選取此核取方塊,以在非截斷資料錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:選擇呈報錯誤處理時應發生什麼事。請注意,可用動作取決於從上述對於其他資料錯誤下拉式清單中選取的動作。
-
暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會landed其資料。
- 停止任務:任務會停止,需要手動干預。
資料表錯誤
傳回表格錯誤前的重試次數
此選項可讓您控制何時觸發表格錯誤處理原則。依預設,遇到表格錯誤後,表格將會暫停或工作將會在三次重試後停止 (根據選取的動作)。有時,會因為 SaaS 應用程式的計劃性維護而發生表格錯誤。在這些情況下,預設的重試次數可能不足以在觸發表格錯誤處理原則之前完成維護。這也取決於工作的排程間隔,因為每次工作執行時都會執行一次重試。因此,例如,如果您排程工作每小時執行一次,且 SaaS 應用程式在工作開始執行時因維護而離線,則預設的三次重試將允許 SaaS 應用程式離線長達三小時,而不會觸發表格錯誤處理原則。更長的維護期間將需要您增加重試次數 (或變更排程),以防止觸發表格錯誤處理原則。
總而言之,如果您知道您的 SaaS 應用程式會定期維護,最佳做法是根據排程增加重試次數,以便在不觸發表格錯誤處理原則的情況下完成維護。
-
此選項將僅顯示給設定為 Lite 或 Standard SaaS 應用程式連接器的工作。
-
如果您使用 資料移動閘道,則需要版本 2024.11.70 或更高版本。
遇到表格錯誤時:從下拉式清單選取下列內容之一:
- 暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在表格錯誤達到時呈報錯誤處理 (每個表格):選取此核取方塊,以在表格錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:表格錯誤的呈報政策設定為停止任務且無法變更。
環境
-
重試計數上限:選取此選項,然後指定在可修復的環境錯誤發生時重試任務的嘗試次數上限。在重試任務達到指定次數之後,任務會停止,需要手動干預。
若絕對不要重試任務,清除核取方塊或指定「0」。
若要重試任務無限次數,指定「-1」
-
重試嘗試之間的間隔 (秒):使用計數器以選取或輸入系統在每次嘗試重試任務之間等待的秒數。
有效值為 0-2,000。
-
- 對長時間中斷增加重試間隔:選取此核取方塊以對長時間中斷增加重試間隔。若啟用此選項, 會加倍每次重試嘗試之間的間隔,直到達到重試間隔上限為止 (並根據指定的間隔上限繼續重試)。
- 重試間隔上限 (秒):在啟用對長時間中斷增加重試間隔選項時,使用計數器以選取或輸入每次嘗試重試任務之間等待的秒數。有效值為 0-2,000。
變更處理微調
交易卸載微調
對磁碟的卸載交易進行中,條件是:通常會將交易資料保留在記憶體中,直到對來源或目標完全認可為止。不過,大於配置記憶體或未在指定期限內認可的交易將會卸載到磁碟。
- 所有交易記憶體總大小超過 (MB):在卸載到磁碟之前,所有交易可以在記憶體中占用的大小上限。預設值為 1024。
- 交易期間超過 (秒):在卸載到磁碟之前,每筆交易可以在記憶體中停留的時間上限。持續時間是從 Qlik Talend Data Integration 開始擷取交易的時間計算。預設值為 60。
批次微調
每個交易的變更數量下限:要在每個交易中納入的變更數量下限。預設值為 1000。
資訊備註若變更數量等於或大於每個交易的變更數量下限值,或者若達到套用之前的批次交易時間上限 (秒) 值 (以先發生者為主), 會將變更套用至目標。因為套用至目標的變更頻率由這兩個參數控制,對來源記錄的變更可能不會立即反映在目標記錄中。
- 套用之前的批次交易時間上限 (秒):宣告逾時之前批次收集交易的時間上限。預設值為 1。
其他微調
- 陳述式快取大小 (陳述式數量):要儲存在伺服器以供之後執行的所準備之陳述式數量上限 (將變更套用至目標時)。預設為 50。上限為 200。
在更新主要金鑰欄時刪除和插入:此選項需要在來源資料庫中開啟完全補充記錄。
結構描述演進
選取如何處理結構描述中以下類型的 DDL 變更。當您變更結構描述演進設定時,您必須重新準備工作。下表說明支援的 DDL 變更可使用哪些動作。
| DDL 變更 | 套用至目標 | 忽略 | 暫停資料表 | 停止工作 |
|---|---|---|---|---|
| 新增欄位 | 是 | 是 | 是 | 是 |
| 重新命名欄位 | 否 | 否 | 是 | 是 |
| 重新命名資料表 | 否 | 否 | 是 | 是 |
| 變更欄位資料類型 | 否 | 是 | 是 | 是 |
| 建立資料表 如果您使用選取規則來新增符合模式的資料集,系統將會偵測並新增符合該模式的新資料表。 | 是 | 是 | 否 | 否 |
字元替換
您可以替代或刪除目標資料庫中的來源字元,以及/或您可以替代或刪除所選字元集合不支援的來源字元。
必須指定所有字元作為 Unicode 字碼指標。
- 也會在控制表格執行字元替代。
將會透過表格儲存格右上方的紅色三角形指示無效的值。將滑鼠游標暫留在三角形上方,將會顯示錯誤訊息。
將會在字元替代完成之後,執行為任務定義的任何表格層級或全域轉換。
會在替代或刪除所選字元集合不支援的來源字元表格中定義的替代動作之前,執行替代或刪除來源字元表格中定義的替代動作。
- 字元替代不支援 LOB 資料類型。
替代或刪除來源字元
使用替代或刪除來源字元表格,以定義更換特定來源字元。例如,若 Unicode 字元表示法在來源和目標平台不同,這可能會很實用。例如,在 Linux,Shift_JIS 字元集合中的減號字元以 U+2212 表示,但在 Windows 則以 U+FF0D 表示。
| 至 | 進行此 |
|---|---|
定義替代動作。 |
|
編輯指定的來源或目標字元 | 按一下列末尾的 |
從表格中刪除項目 | 按一下列末尾的 |
替代或刪除所選字元集合不支援的來源字元
使用字元集合不支援的來源字元表格,為所選字元集合不支援的所有字元定義單一替換字元。
| 至 | 進行此 |
|---|---|
定義或編輯替代動作。 |
|
停用替代動作。 | 從字元集合下拉式清單中選取空白項目。 |
更多選項
不會在 UI 中暴露這些選項,因為這僅與特定版本或環境相關。因此,請勿設定這些選項,除非 Qlik 支援或產品文件明確指示這麼做。
若要設定選項,只要在新增特徵名稱欄位中複製選項並按一下新增即可。然後根據您收到的說明設定值或啟用選項。
平行載入資料集區段
在完整載入期間,您可以透過將資料集分割為區段來加速大型資料集的載入,這些區段將平行載入。資料表可以按資料範圍、所有分割區、所有子分割區或特定分割區進行分割。
如需詳細資訊,請參閱 平行登陸資料集區段
在沒有 資料移動閘道 的情況下工作時排程 CDC 工作
資料移動閘道 不支援 Qlik Talend Cloud 啟動器 訂閱,在其他訂閱層級中為選用。在沒有 資料移動閘道 的情況下工作時,您可以透過設定排程間隔來保持目標資料最新。排程決定了目標資料集隨來源資料集的變更而更新的頻率。排程決定更新頻率,而資料集類型則決定更新方法。如果來源資料集支援 CDC (變更資料擷取),則僅會複製來源資料的變更並套用至對應的目標資料表。如果來源資料集不支援 CDC (例如檢視),則會透過將所有來源資料重新載入至對應的目標資料表來套用變更。如果某些來源資料集支援 CDC,而某些不支援,則會建立兩個獨立的子工作:一個用於重新載入不支援 CDC 的資料集,另一個用於擷取支援 CDC 的資料集的變更。在這種情況下,為了確保資料一致性,強烈建議為這兩個子工作設定相同的排程。
如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔。
若要變更排程:
開啟您的管道專案,然後執行下列其中一項操作:
- 在工作檢視中,按一下資料工作上的
,然後選取排程。
- 在管道檢視中,按一下資料工作上的
,然後選取排程。
- 開啟登陸工作,然後按一下排程 工具列按鈕。
- 在工作檢視中,按一下資料工作上的
- 根據需要變更排程設定,然後按一下確定。
按鈕指示。