登陸設定
您可為登陸資料任務進行設定。
-
開啟登陸任務並在工具列中按一下設定。
就會開啟 設定:<Task-Name> 對話方塊。可用設定如下所述。
一般
-
資料庫
在目標使用的資料庫。
資訊備註登陸資料至 Qlik Cloud (透過 Amazon S3) 時,此選項無法使用。 -
任務結構描述
您可以變更登陸資料任務結構描述的名稱。預設值名稱是 landing。
資訊備註登陸資料至 Qlik Cloud (透過 Amazon S3) 時,此選項無法使用。 -
預設大寫架構名稱
您可以為所有結構描述名稱設定預設大寫。如果您的資料庫設定為強制大寫,則此選項將無效。
-
用於所有表格和檢視的前置詞
您可以為透過此任務建立的所有表格和檢視畫面設定前置詞。
資訊備註登陸資料至 Qlik Cloud (透過 Amazon S3) 時,此選項無法使用。資訊備註若您想要在數個資料任務中使用一個資料庫結構描述,則必須使用唯一前置詞。 -
更新方法
登陸任務一律以完整載入開始。完整載入完成後,您可以使用下列方法之一,將登陸的資料保持為最新狀態:
資訊備註登陸資料任務準備操作完成後,就無法變更更新方法。-
變更資料擷取 (CDC)
登陸資料會使用 CDC (變更資料擷取) 技術保持最新狀態。CDC 不一定受到所有資料來源的支援。CDC 不會擷取 DDL 操作,例如將欄重新命名或變更中繼資料。
若資料也包含不支援 CDC 的檢視或表格,將會建立兩個資料管道。一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入和比較作為更新方法的所有其他表格和檢視。
-
載入並比較
會從來源載入所有登陸的資料。若來源不支援 CDC,但可搭配任何支援的資料來源使用,則這很實用。
您可以定期排程載入。
-
-
載入方法
複寫到 Snowflake 目標時,您可以選擇以下載入方法之一:
-
批次載入 (預設)
如果選取批次載入,您將能夠在資料上傳索引標籤中調整載入參數。
-
Snowpipe 串流
資訊備註只有在滿足以下條件時,才可選取 Snowpipe 串流:
- 已啟用變更資料擷取 (CDC) 更新方法。
- Snowflake 連接器中的驗證機制 設定為金鑰組。
- 如果您使用 資料移動閘道,則需要版本 2024.11.45 或更高版本。
如果您選取 Snowpipe 串流,請確保您熟悉使用此方法時的限制和考慮事項。此外,如果您選取 Snowpipe 串流,然後切換至載入並比較更新方法,則載入方法將自動切換回批次載入。
選擇 Snowpipe 串流而不是批次載入的主要原因是:
-
成本較低:由於 Snowpipe 串流不使用 Snowflake 倉庫,因此操作成本應該會便宜許多,不過這取決於您的具體使用情況。
-
減少延遲:由於資料直接串流到目標表格 (而不是透過暫存),從資料來源複寫到目標的速度應該會更快。
-
-
要在暫存區域中使用的資料夾
對於需要暫存區域的資料平台 (例如 Databricks 和 Azure Synapse Analytics),您可以選取哪個資料夾可在登陸資料時使用。
-
預設資料夾
如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。
-
根資料夾
將資料存放在儲存區的根資料夾。
資訊備註此選項只有登陸資料至 Qlik Cloud (透過 Amazon S3) 時可用。 -
資料夾
指定要使用的資料夾名稱。
-
-
變更處理間隔
您可以設定處理來源變更之間的間隔。
資訊備註此選項只有登陸資料至 Qlik Cloud (透過 Amazon S3) 時可用。 -
使用資料移動閘道時的 Proxy 伺服器
資訊備註只有在透過 Data Movement gateway 存取目標時,此選項才能使用。您可以選取以在 Data Movement 閘道連線至雲端資料倉庫和儲存區域時使用 Proxy 伺服器。
如需更多關於設定 Data Movement 閘道以使用 Proxy 伺服器的資訊,請參閱 設定 Qlik Cloud 租用戶和 Proxy 伺服器。
-
使用 Proxy 連線至雲端資料倉庫
資訊備註可在使用 Snowflake、Google BigQuery 和 Databricks 時使用。 -
使用 Proxy 連線至儲存空間
資訊備註可在使用 Azure Synapse Analytics、Amazon Redshift 和 Databricks 時使用。
-
資料上傳
此索引標籤中的某些設定僅與特定目標平台相關。
與所有資料平台相關,但 Qlik Cloud 和 Snowflake 除外
最大檔案大小 (MB)
檔案在關閉之前可達到的大小上限。較小的檔案可能上傳得更快 (取決於網路),並且可在結合平行執行選項使用時改善效能。不過,以小檔案叢集資料庫通常被視為不良做法。
僅與 Google BigQuery 相關
使用壓縮
選取後,將會先壓縮 CSV 檔案 (使用 gzip),再上傳至 Google BigQuery。
需要 資料移動閘道 2023.5.16 或更高版本。
僅與 Snowflake 相關
在一般索引標籤中,您可以選擇要使用批次載入或 Snowpipe 串流將資料載入到 Snowflake。若選取 Snowpipe 串流,將不會顯示資料上傳索引標籤。若選取批次載入,將可使用以下設定:
-
最大檔案大小 (MB):與初始完整載入和 CDC 相關。檔案在載入至目標之前可達到的大小上限。如您遇到效能問題,請嘗試調整此參數。
-
要批次載入的檔案數量:僅與初始完整載入相關。要以單一批次載入的檔案數量。如您遇到效能問題,請嘗試調整此參數。
如需批次載入和 Snowpipe 串流載入方法的描述,請參閱 一般。
中繼資料
LOB 欄
納入 LOB 欄並將欄大小限制為 (KB):
您可選擇在任務中納入 LOB 欄,以及設定最大 LOB 大小。將會截斷大於最大大小的 LOB。
控制表格
選取您要在目標平台建立下列哪些控制表格:
- 登陸狀態:提供關於目前登陸任務的詳細資訊,包括任務狀態、任務取用的記憶體量、尚未套用至資料平台的變更數量,以及目前讀取 資料移動閘道 的來源端點中的位置。
- 暫停的表格:提供暫停表格清單,以及暫停的原因。
- 登陸歷史記錄:提供關於任務歷史記錄的資訊,包括登陸任務期間處理的記錄數目和記錄量、CDC 任務結束時的延遲等。
-
DDL 歷史記錄:包含發生於任務期間的所有受支援 DDL 變更的歷史記錄。
僅下列目標平台支援 DDL 歷史記錄表格:
資訊備註Amazon Redshift、Amazon S3、Google Cloud Storage 和 Snowflake 需要 資料移動閘道 2024.11.14 或更高版本。-
Databricks
- Microsoft Fabric
- Amazon Redshift
- Amazon S3
- Google Cloud Storage
- Snowflake
-
如需每個控制表格的詳細描述,請參閱 控制表格
完整載入
效能微調
- 要平行載入的表格數量上限:輸入一次載入到目標中的表格數量上限。預設值為 5。
-
交易一致性逾時 (秒):輸入在開始完整載入操作之前等待開放的交易關閉的秒數。預設值為 600 (10 分鐘)。將會在達到逾時值之後開始完整載入,即使有仍然開放的交易也是如此。
資訊備註若要複寫完整載入開始時開放但僅在達到逾時值之後認可的交易,您需要載入目標表格。 - 完整載入期間的認可率:可以一起傳輸的事件數量上限。預設值為 10000。
完整載入完成之後
建立主要金鑰或唯一:若您想要在完整載入完成之前,對資料平台延遲主要金鑰或唯一索引建立,請選取此選項。
用於初始載入
從 SaaS 應用程式來源移動資料時,您可以設定如何執行初始完整載入:
| 使用快取的資料 |
此選項可讓您使用透過所選的完整資料掃描產生中繼資料時讀取的快取資料。 這會對 API 使用和配額產生較少的負荷,因為已從來源讀取資料。可以透過變更資料擷取 (CDC) 選取自初始資料掃描以來的任何變更。 |
| 從來源載入資料 |
此選項從資料來源執行新的載入。如有以下情況,此選項很實用:
|
處理時發生錯誤
資料錯誤
僅變更資料擷取 (CDC) 更新方法支援資料錯誤處理。
對於資料截斷錯誤:選取當截斷發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
對於其他資料錯誤:選取當錯誤發生於一個或多個特定記錄時,您想要發生的事項。您可以從清單中選取下列內容之一:
- 忽略:任務會繼續並忽略錯誤。
- 暫停表格:任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在達到其他資料錯誤 (每個表格) 時呈報錯誤處理:選取此核取方塊,以在非截斷資料錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:選擇呈報錯誤處理時應發生什麼事。請注意,可用動作取決於從上述對於其他資料錯誤下拉式清單中選取的動作。
-
暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會landed其資料。
- 停止任務:任務會停止,需要手動干預。
表格錯誤
傳回表格錯誤前的重試次數
此選項可讓您控制何時觸發表格錯誤處理原則。依預設,遇到表格錯誤後,表格將會暫停或工作將會在三次重試後停止 (根據選取的動作)。有時,會因為 SaaS 應用程式的計劃性維護而發生表格錯誤。在這些情況下,預設的重試次數可能不足以在觸發表格錯誤處理原則之前完成維護。這也取決於工作的排程間隔,因為每次工作執行時都會執行一次重試。因此,例如,如果您排程工作每小時執行一次,且 SaaS 應用程式在工作開始執行時因維護而離線,則預設的三次重試將允許 SaaS 應用程式離線長達三小時,而不會觸發表格錯誤處理原則。更長的維護期間將需要您增加重試次數 (或變更排程),以防止觸發表格錯誤處理原則。
總而言之,如果您知道您的 SaaS 應用程式會定期維護,最佳做法是根據排程增加重試次數,以便在不觸發表格錯誤處理原則的情況下完成維護。
-
此選項將僅顯示給設定為 Lite 或 Standard SaaS 應用程式連接器的工作。
-
如果您使用 資料移動閘道,則需要版本 2024.11.70 或更高版本。
遇到表格錯誤時:從下拉式清單選取下列內容之一:
- 暫停表格 (預設):任務會繼續,但具有錯誤記錄之表格中的資料會移至錯誤狀態,並且不會複寫其資料
- 停止任務:任務會停止,需要手動干預。
在表格錯誤達到時呈報錯誤處理 (每個表格):選取此核取方塊,以在表格錯誤數量 (每個表格) 達到指定量時呈報錯誤處理。有效值為 1-10,000。
呈報動作:表格錯誤的呈報政策設定為停止任務且無法變更。
環境
-
重試計數上限:選取此選項,然後指定在可修復的環境錯誤發生時重試任務的嘗試次數上限。在重試任務達到指定次數之後,任務會停止,需要手動干預。
若絕對不要重試任務,清除核取方塊或指定「0」。
若要重試任務無限次數,指定「-1」
-
重試嘗試之間的間隔 (秒):使用計數器以選取或輸入系統在每次嘗試重試任務之間等待的秒數。
有效值為 0-2,000。
-
- 對長時間中斷增加重試間隔:選取此核取方塊以對長時間中斷增加重試間隔。若啟用此選項, 會加倍每次重試嘗試之間的間隔,直到達到重試間隔上限為止 (並根據指定的間隔上限繼續重試)。
- 重試間隔上限 (秒):在啟用對長時間中斷增加重試間隔選項時,使用計數器以選取或輸入每次嘗試重試任務之間等待的秒數。有效值為 0-2,000。
變更處理微調
交易卸載微調
-
對磁碟的卸載交易進行中,條件是:
通常會將交易資料保留在記憶體中,直到對來源或目標完全認可為止。不過,大於配置記憶體或未在指定期限內認可的交易將會卸載到磁碟。
- 所有交易記憶體總大小超過 (MB):在卸載到磁碟之前,所有交易可以在記憶體中占用的大小上限。預設值為 1024。
- 交易期間超過 (秒):在卸載到磁碟之前,每筆交易可以在記憶體中停留的時間上限。持續時間是從 Qlik Talend Data Integration 開始擷取交易的時間計算。預設值為 60。
批次微調
此索引標籤中的某些設定可能不適用於所有目標或目標載入方法。
在「載入方法」為「Snowpipe 串流」的情況下,適用於 Qlik Cloud 和 Snowflake 之外的所有目標的設定
- 以間隔套用批次變更:
-
大於:每次應用程式批次變更之間等待的時間長度下限。預設值為 1。
增加大於值會減少變更套用至目標的頻率,同時增加批次大小。若將變更套用至為處理大型批次而最佳化的目標資料庫,這可以改善效能。
- 小於:每次應用程式批次變更之間等待的時間長度上限 (宣告逾時之前)。換言之,即可接受的延遲上限。預設值為 30。此值決定套用變更之前、達到大於值之後要等待的時間長度上限。
-
在處理記憶體超過時強制套用批次 (MB):用於預先處理的記憶體量上限。預設值為 500 MB。
如需最大批次大小,請將此值設定為您可以配置到資料任務的最高記憶體量。若將變更套用至為處理大型批次而最佳化的目標資料庫,這可以改善效能。
-
將批次變更同時套用至多個表格:從多個來源表格套用變更時,選取此選項應可改善效能。
-
表格數量上限:要同時套用批次變更的表格數量上限。預設為五。
資訊備註使用 Google BigQuery 作為資料平台時,不支援此選項。 -
-
根據變更處理陳述式將套用的變更數量限制為:選取此選項,以限制單一變更處理陳述式中套用的變更數量。預設值為 10,000。
資訊備註只有在使用 Google BigQuery 作為資料平台時,才會支援此選項。
在「載入方法」為「Snowpipe 串流」的情況下,僅適用於 Qlik Cloud 和 Snowflake 的設定
-
每個交易的變更數量下限:要在每個交易中納入的變更數量下限。預設值為 1000。
資訊備註若變更數量等於或大於每個交易的變更數量下限值,或者若達到套用之前的批次交易時間上限 (秒) 值 (以先發生者為主), 會將變更套用至目標。因為套用至目標的變更頻率由這兩個參數控制,對來源記錄的變更可能不會立即反映在目標記錄中。
- 套用之前的批次交易時間上限 (秒):宣告逾時之前批次收集交易的時間上限。預設值為 1。
間隔
使用 SAP ODP 和 SaaS 應用程式 (精簡版) 連接器時的設定
-
讀取變更間隔 (分鐘)
設定從來源讀取變更之間的間隔,單位為分鐘。有效範圍為 1 至 1440。
使用 SAP OData 連接器時的設定
查看變更
-
根據差異擷取間隔:選取此選項時,資料任務會根據差異擷取間隔檢查變更。
資訊備註每個「回合」結束後,間隔就會開始。一個回合可定義為資料任務從來源表格讀取變更並將其傳送至目標所需的時間 (作為單一交易)。回合的長度會根據表格和變更的數量而異。因此,如果您指定 10 分鐘的間隔,而一個回合需要 4 分鐘,則檢查變更之間的實際時間將為 14 分鐘。-
差異擷取間隔:從您的系統中擷取差異的頻率。預設為每 60 秒一次。
-
-
依排程:選取此選項時,資料任務將擷取差異一次,然後停止。然後將依排程繼續執行。
資訊備註此選項僅在 CDC 週期之間的間隔為 24 小時或更長時間時才相關。如需排程資訊:
-
在資料管道專案中登陸任務,請參閱 排程任務
-
雜項微調
- 陳述式快取大小 (陳述式數量):要儲存在伺服器以供之後執行的所準備之陳述式數量上限 (將變更套用至目標時)。預設為 50。上限為 200。
-
在更新主要金鑰欄時刪除和插入:此選項需要在來源資料庫中開啟完全補充記錄。
結構描述演進
選取如何處理結構描述中以下類型的 DDL 變更。變更結構描述演進設定後,您必須重新準備任務。下表描述了哪些動作可用於支援的 DDL 變更。
| DDL 變更 | 套用至目標 | 忽略 | 暫停表格 | 停止任務 |
|---|---|---|---|---|
| 新增欄 | 是 | 是 | 是 | 是 |
| 重新命名欄 | 否 | 否 | 是 | 是 |
| 重新命名表格 | 否 | 否 | 是 | 是 |
| 變更欄資料類型 | 否 | 是 | 是 | 是 |
| 建立表格
如果您使用選取規則新增與模式相符的資料集,則會偵測到並新增符合該模式的新表格。 |
是 | 是 | 否 | 否 |
字元替代
您可以替代或刪除目標資料庫中的來源字元,以及/或您可以替代或刪除所選字元集合不支援的來源字元。
-
必須指定所有字元作為 Unicode 字碼指標。
- 也會在控制表格執行字元替代。
-
將會透過表格儲存格右上方的紅色三角形指示無效的值。將滑鼠游標暫留在三角形上方,將會顯示錯誤訊息。
-
將會在字元替代完成之後,執行為任務定義的任何表格層級或全域轉換。
-
會在替代或刪除所選字元集合不支援的來源字元表格中定義的替代動作之前,執行替代或刪除來源字元表格中定義的替代動作。
- 字元替代不支援 LOB 資料類型。
替代或刪除來源字元
使用替代或刪除來源字元表格,以定義更換特定來源字元。例如,若 Unicode 字元表示法在來源和目標平台不同,這可能會很實用。例如,在 Linux,Shift_JIS 字元集合中的減號字元以 U+2212 表示,但在 Windows 則以 U+FF0D 表示。
| 至 | 進行此 |
|---|---|
|
定義替代動作。 |
|
|
編輯指定的來源或目標字元 |
按一下列末尾的 |
|
從表格中刪除項目 |
按一下列末尾的 |
替代或刪除所選字元集合不支援的來源字元
使用字元集合不支援的來源字元表格,為所選字元集合不支援的所有字元定義單一替換字元。
| 至 | 進行此 |
|---|---|
|
定義或編輯替代動作。 |
|
|
停用替代動作。 |
從字元集合下拉式清單中選取空白項目。 |
更多選項
不會在 UI 中暴露這些選項,因為這僅與特定版本或環境相關。因此,請勿設定這些選項,除非 Qlik 支援或產品文件明確指示這麼做。
若要設定選項,只要在新增特徵名稱欄位中複製選項並按一下新增即可。然後根據您收到的說明設定值或啟用選項。
平行載入資料集區段
在完整載入期間,您可以將資料集分成多個平行載入的區段,以加速大型資料集的載入。表格可以按照資料範圍、所有分割、所有子分割或特定分割進行分割。
如需詳細資訊,請參閱平行登陸資料集區段。
排程任務
在以下使用案例中,您必須定義排程間隔,以將目標資料保持在最新狀態:
- 在沒有 資料移動閘道 的情況下存取資料來源
- 使用不支援 讀取變更頻率 設定的 SaaS 應用程式連接器
- 當使用依排程選項從 SAP OData 來源擷取變更時。
排程決定透過來源資料集變更更新目標資料集的頻率。排程決定更新頻率,而資料集類型則決定更新方法。若來源資料集支援 CDC (變更資料擷取),只會複寫來源資料的變更並套用至對應的目標表格。若來源資料集不支援 CDC (例如檢視畫面),則會將所有來源資料載入到對應的目標表格,以套用變更。若有些來源資料集支援 CDC,而有些不支援,將會建立兩個獨立的子任務:一個用於載入不支援 CDC 的資料集,另一個用於對支援 CDC 的資料集擷取變更。在此情況下,為了確保資料一致性,強烈建議不要為兩個任務保持相同的排程間隔 (如果您決定將來變更更新頻率)。
如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔。
若要變更排程:
開啟資料專案,然後進行下列事項之一:
- 在任務檢視中,按一下資料任務上的
並選取排程。
- 在管道檢視中,按一下資料任務上的
並選取排程。
- 開啟登陸任務並按一下排程工具列按鈕。
- 在任務檢視中,按一下資料任務上的
- 根據需求變更排程設定,然後按一下確定。
根據 資料移動閘道 執行遺漏的任務執行。
有時候,網路問題可能會導致與 資料移動閘道 的連線遺失。如果在下次排定的執行之前未還原與 資料移動閘道 的連線,則資料任務將無法按預定執行。在這種情況下,您可以選擇是否要在還原連線後立即執行。
所有 資料移動閘道 的預設設定在 管理 活動中心定義。您可以如下所述覆寫個別任務的這些設定。
若要執行此動作
開啟專案,然後進行下列事項之一:
在任務檢視中,按一下資料任務上的
並選取排程。
在管道檢視中,按一下資料任務上的
並選取排程。
開啟資料任務並按一下排程 工具列按鈕。
排程 - <任務> 對話方塊隨即開啟。
開啟對此任務使用自訂設定。
在對話方塊底部,選擇下列其中一個執行錯過的排程任務選項。
如果務必在下一個排程執行個體之前執行任務,則盡快執行,然後按排程執行
依排程在下一個排程實例執行任務
儲存設定。
另請參見:執行錯過排程後的任務執行。