從資料來源登陸資料 | Qlik Cloud 說明
跳到主要內容 跳至補充內容

從資料來源登陸資料

載入時傳輸資料的第一步是登陸資料。這涉及將資料從資料來源傳輸到登陸區域。

您可以透過來源連線從多個資料來源登陸資料。

登陸區域是在您建立專案時定義的。

  • Qlik Cloud (透過 Amazon S3)

    當您將資料登陸到 Qlik Cloud (透過 Amazon S3) 時,您可以使用它來產生 QVD 表格,以便在 Qlik Cloud 中進行分析。

  • 雲端資料倉庫

    當您將資料登陸到雲端資料倉庫 (例如 SnowflakeAzure Synapse Analytics) 時,您可以將表格儲存在同一個雲端資料倉庫中。

  • Qlik 開放湖倉庫

    當您將資料登陸到 Qlik 開放湖倉庫 時,您的資料會以 Iceberg 開放表格格式儲存,並且可以鏡像到您的雲端資料倉庫。

您也可以將資料登陸到湖泊倉庫,其中資料會登陸到由 Snowflake 管理的雲端檔案儲存空間。如需詳細資訊,請參閱 將資料登陸至湖存放庫

資訊備註資料任務在所屬的專案擁有者的內容中操作。如需有關所需角色和權限的詳細資訊,請參閱 資料空間角色與權限

建立並設定登陸資料工作

這說明如何建立登陸資料工作。建立資料管道的最快方法是載入資料,這會建立登陸資料工作和儲存資料工作,準備好進行準備和執行。如需詳細資訊,請參閱 將資料導入資料倉儲

  1. 在您的專案中,按一下 建立 並選取 登陸資料

  2. 登陸資料 對話方塊中,輸入資料工作的名稱和描述。

    選取 開啟 以在建立登陸資料工作時將其開啟。

    按一下 建立

  3. 按一下 選取來源資料

  4. 選取來源資料的連線,然後按一下 下一步

    您可以使用左側面板中的篩選條件,依來源類型、空間和擁有者來篩選連線清單。

    如果您還沒有來源資料的連線,您需要先按一下 新增連線 來建立一個。

    如需有關設定支援來源連線的詳細資訊,請參閱 設定前往資料來源的連線

    資訊備註當您在下一個步驟中選取表格後,就無法將來源連線從內部部署資料來源變更為雲端資料來源,反之亦然。您只能將連線變更為相同類型的另一個資料來源。
  5. 選取要包含在資料工作中的資料集。選取對話方塊會根據您連線的來源類型而有所不同。

    完成選取表格後,按一下 儲存

    將會顯示 資料集

  6. 您可以變更登陸的設定。這不是必要的。

    • 按一下 設定

    如需有關設定的詳細資訊,請參閱 登陸設定

  7. 您現在可以預覽所選資料資產表格的結構和中繼資料。這包括所有明確列出的表格,以及符合選取規則的表格。

    如果您想要從資料來源新增更多表格,請按一下 選取來源資料

  8. 您可以對資料集執行基本轉換,例如篩選資料或新增欄。這不是必要的。

    如需詳細資訊,請參閱 管理資料集

  9. 當您新增了想要的轉換後,您可以按一下 驗證資料集 來驗證資料集。如果驗證發現錯誤,請在繼續之前修正錯誤。

    如需詳細資訊,請參閱 驗證和調整資料集

  10. 準備就緒後,按一下 準備 以將資料工作編目並準備執行。

    您可以在畫面下方的 準備進度 下追蹤進度。

  11. 當資料工作準備就緒,且您準備好開始複寫資料時,按一下 執行

複寫現在應該會開始,您可以在 監視 中查看進度。如需詳細資訊,請參閱 監控個別資料任務

從資料庫選取資料

您可以選取特定表格或檢視,或使用選取規則以納入或排除表格群組。

資訊備註如果選取項目包含檢視,則不支援 CDC。

可使用 % 作為萬用字元,為架構和表格定義選取標準。

  • %.% 可定義所有架構中的所有表格。

  • Public.% 可定義架構 Public 中的所有表格。

選取標準可依照您的選取項目提供預覽。

您現在可以:

  • 建立規則,以基於選取標準納入或排除表格群組。

    按一下從選取標準新增規則以建立規則,再選取納入排除

    您可在選取規則之下看見此規則。

  • 選取一或多個資料集,按一下新增所選的資料集

    您可在明確選取的資料集之下看見新增的資料集。

選取規則僅套用到目前的表格和檢視組,不會套用到日後新增的表格和檢視。

使用 變更資料擷取 (CDC) 執行登陸工作

您可以在登陸工作準備就緒時執行它。這會啟動複寫,將資料從內部部署資料來源傳輸到登陸區域。

  • 按一下 執行 以開始登陸資料。

複寫現在應該會開始,且資料工作的狀態將為 執行中。首先,會複製完整的資料來源,然後追蹤變更。這表示會持續追蹤變更,並在發現時進行傳輸。這可讓登陸區域中的登陸資料保持在最新狀態。

Qlik Talend Data Integration 首頁中,您可以檢視狀態、登陸資料更新的日期和時間,以及發生錯誤的表格數量。您也可以開啟資料工作並選取 表格 索引標籤,以檢視表格的基本中繼資料資訊。

您可以透過開啟 監視 索引標籤來詳細監視進度。如需詳細資訊,請參閱 監控個別資料任務

當所有表格都已載入且第一組變更已處理完畢時,資料工作卡片上的 資料更新至 會指出截至該時間的來源變更已在資料工作中可用。

重新載入表格

您可以從來源重新載入資料。

重新載入單一表格

您可以手動重新載入特定表格,而不會干擾變更資料擷取。當一或多個表格發生 CDC 問題時,這非常有用。

  1. 開啟登陸資料工作並選取 監視 索引標籤。

  2. 選取您想要重新載入的表格。

  3. 按一下 重新載入表格

資訊備註此選項將在登陸工作至少執行一次後變得可用。 如果在登陸工作未執行時按一下,表格將在下次執行工作時重新載入。

如果您無法透過重新載入表格來解決問題,或者如果它們影響整個工作,您可以改為將所有表格重新載入到目標。這將重新啟動變更資料擷取。

將所有表格重新載入到目標

如果您遇到無法透過重新載入特定表格來解決的 CDC 問題,您可以將所有表格重新載入到目標。問題的範例包括遺失事件、由來源資料庫重組引起的問題,或讀取來源資料庫事件時失敗。

資訊備註此作業僅適用於更新方法為 變更資料擷取 (CDC) 且至少執行過一次的工作。

  1. 停止資料任務和取用資料任務的所有任務。
  2. 開啟資料任務並選取監控索引標籤。

  3. 按一下 ...,然後按一下載入目標

這會使用捨棄-建立將所有表格載入到目標,並且將會重新啟動從現在起的所有變更資料擷取。

  • 將會在下次執行以進行同步時透過比較和套用載入取用登陸資料任務的儲存任務。將會保留現有歷史記錄。將會更新類型 2 歷史記錄,以在執行載入並比較流程後反映變更。

    類型 2 歷史記錄中的起始日期時間戳記將會反映載入日期,而不必是來源中發生變更的日期。

  • 在儲存同步之前,儲存即時檢視在載入目標操作期間並不可靠。儲存將會在下列情況完全同步:

    • 使用比較和套用載入所有表格,

    • 為每個表格執行一次變更循環。

資訊備註不支援中繼資料變更。如果來源中有中繼資料變更,它們會在重新載入資料時傳播到登陸,但不會被正確處理。這可能會導致取用儲存失敗。

使用 重新載入並比較 執行登陸資料工作

您可以在登陸資料工作準備就緒時使用它來複製資料。

  • 按一下 執行 以開始完整載入。

現在將開始複製資料,且資料工作的狀態將為 執行中。當複製完整的資料來源時,狀態為 已完成

Qlik Talend Data Integration 首頁中,您可以檢視狀態、登陸資料更新的日期和時間,以及發生錯誤的表格數量。您也可以開啟資料工作並選取 表格 索引標籤,以檢視表格的基本中繼資料資訊。

您可以透過開啟 監視 索引標籤來詳細監視進度。如需詳細資訊,請參閱 監控個別資料任務

當所有表格都已載入時,資料工作卡片上的 資料更新至 會指出截至該時間的來源變更已在資料資產中可用。然而,資料工作的某些表格可能會更新到較晚的時間,這取決於它們開始載入的時間。這表示不保證資料一致性。例如,如果載入在 08:00 開始並花費了 4 小時,當載入完成時,資料更新至 將顯示 08:00。然而,在 11:30 開始重新載入的表格將包含在 08:00 到 11:30 之間發生的來源變更。

資料更新至 僅反映成功載入的表格。它不表示任何關於重新載入失敗的表格的資訊。在雲端目標中,如果重新載入完成且所有表格都發生錯誤,該欄位將為空白。

使用 重新載入並比較 時重新載入資料

當您使用 重新載入並比較 作為更新方法時,您需要重新載入資料以使其與資料來源保持在最新狀態。

  • 按一下 重新載入 以執行所有表格的手動重新載入。

  • 設定排程的重新載入。

重新載入單一表格

您可以手動重新載入特定表格。當一或多個表格發生問題時,這非常有用。

  1. 開啟登陸資料工作並選取 監視 索引標籤。

  2. 選取您想要重新載入的表格。

  3. 按一下 重新載入表格

資訊備註
  • 此選項將在登陸工作至少執行一次後變得可用,且僅在工作未執行時可用。
  • 不支援中繼資料變更。如果來源中有中繼資料變更,它們會在重新載入資料時傳播到登陸,但不會被正確處理。這可能會導致取用儲存失敗。

排程 重新載入並比較 登陸資料工作

如果您在資料工作的空間中具有 可操作可編輯 角色,您可以為登陸資料工作排程定期重新載入。資料工作狀態必須至少為 已準備,排程才能處於作用中狀態。

  • 按一下資料工作上的 ... 並選取 排程

    您可以設定以時間為基礎的排程。

    如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔

資訊備註如果在排程的重新載入即將開始時資料工作仍在重新載入,則會略過排程的重新載入,直到下一個排程的重新載入事件。

設定資料集的載入優先順序

您可以透過為每個資料集指定載入優先順序,控制資料任務中資料集的載入順序。例如,如果您希望在大型資料集之前先載入較小的資料集,這會很有用。

  1. 按一下載入優先順序

  2. 為每個資料集選擇一種載入優先順序。

    預設的載入優先順序為一般。資料集將會依照下列優先順序載入:

    • 最高

    • 較高

    • 正常

    • 較低

    • 最低

    具有相同優先順序的資料集不會按特定順序載入。

  3. 按一下確定

資訊備註SaaS 應用程式來源中的資料集可能依載入順序包含相依性。設定載入優先順序時,請考慮這一點。

登陸資料工作上的作業

您可以從工作功能表對登陸資料工作執行下列作業。

  • 開啟

    這會開啟登陸資料工作。您可以檢視表格結構和有關資料工作的詳細資訊。

  • 編輯

    您可以編輯工作的名稱和描述。

  • 刪除

    您可以刪除資料工作。

    不會刪除下列物件:

    • 登陸區域中的資料

    • 目標平台中的結構描述

  • 執行

    您可以執行資料工作以開始複製資料。

    使用 變更資料擷取 (CDC) 執行登陸工作

    使用 重新載入並比較 執行登陸資料工作

  • 停止

    您可以停止正在執行的資料工作作業。登陸區域不會使用變更的資料進行更新。

    當您停止具有重新載入排程的完整載入資料工作時,只會停止目前的重新載入。如果資料工作狀態為 已停止 且有作用中的重新載入排程,它將在下一個排程時間再次重新載入。您必須在 排程重新載入 中關閉重新載入排程。

  • 重新載入

    您可以在 重新載入並比較 更新模式下執行資料工作的手動重新載入。

  • 準備

    這會準備要執行的工作。這包括:

    • 驗證設計是否有效。

    • 建立或變更實體表格和檢視以符合設計。

    • 產生資料工作的 SQL 程式碼。

    • 建立或變更工作輸出資料集的目錄項目。

    您可以在畫面下方的 準備進度 下追蹤進度。

    資訊備註在準備任務之前,請停止直接下游處理的所有任務。
  • 重新建立表格

    這會從來源重新建立資料集。

    資訊備註若個別表格發生問題,建議先嘗試載入表格,而非重新建立。重新建立表格可能會造成歷史資料損失。若有重大變更,您也必須準備取用重建資料任務的下游資料任務,以載入資料。
  • 排程

    您可以為 完整載入 模式下的登陸資料工作設定排程的重新載入。您可以設定可自訂的以時間為基礎的排程。

    您也可以開啟或關閉排程的重新載入。

    您必須在資料工作的空間上具有 可操作 角色才能排程重新載入。

  • 儲存資料

    您可以建立使用此登陸資料工作資料的儲存資料工作。

正在重新整理中繼資料

您可以在任務的設計檢視中重新整理任務中的中繼資料,以符合來源中繼資料中的變更。對於使用 Metadata Manager 的 SaaS 應用程式,必須先重新整理 Metadata Manager,才能重新整理資料任務中的中繼資料。

資訊備註使用 SaaS 應用程式預覽連接器時,此操作不適用。在建立連線對話方塊和線上說明中,預覽連接器以 預覽按鈕的影像 按鈕指示。
資訊備註此操作只會影響任務的設計檢視中的表格。
  1. 您可以進行以下任一項:

    • 按一下 ...,然後按一下重新整理中繼資料,以對任務中的所有資料集重新整理中繼資料。

    • 資料集中的資料集按一下 ...,然後按一下重新整理中繼資料,以對單一資料集重新整理中繼資料。

    您可以在畫面下方部分的重新整理中繼資料之下檢視中繼資料重新整理狀態。您可以將游標暫留在 資訊按鈕 上方,以查看上次重新整理中繼資料的時間。

  2. 準備資料任務以套用變更。

    準備資料任務並套用變更後,會從重新整理中繼資料移除變更。

您必須準備取用此任務的儲存任務以散佈變更。

若移除欄,會新增具有 Null 值的轉換,以確保儲存不會失去歷史資料。

重新整理中繼資料的限制

  • 若有相同的資料類型和資料長度,則在此之前於相同時段以捨棄的欄重新命名,將會轉譯為捨棄的欄重新命名。

    範例:  

    之前:a b c d

    之後:a c1 d

    在此範例中,捨棄了 b,而 c 重新命名為 c1,且 bc 有相同的資料類型和資料長度。

    這將會識別為從 b 重新命名為 c1 並捨棄 c

  • 不會辨識最後一欄重新命名,即使已捨棄最後一欄並重新命名前一欄,也是如此。

    範例:  

    之前:a b c d

    之後:a b c1

    在此範例中,捨棄了 dc 重新命名為 c1

    這將會識別為捨棄 cd,並新增 c1

  • 會假設新的欄在末尾新增。若在中間新增資料類型與下一欄相同的欄,可能會解譯為捨棄並重新命名。

結構描述演進

結構描述演進讓您可以輕鬆偵測多個資料來源的結構變更,然後控制如何將這些變更套用至您的任務。結構描述演進可用於偵測對來源資料結構描述所做的 DDL 變更。您也可以自動套用一些變更。

資訊備註結構描述演進不適用於透過 SaaS 應用程式精簡版連接器或透過 Qlik Talend Cloud 啟動器 訂閱定義的任務。這部分適用於透過 SaaS 應用程式預覽連接器定義的任務。

對於每種變更類型,您可以在任務設定的結構描述演進區段中選取如何處理變更。 您可以套用變更、忽略變更、暫停表格或停止任務處理。

您可以設定使用哪個動作來處理每種變更類型的 DDL 變更。某些動作不一定適用於所有變更類型。

  • 套用至目標

    自動套用變更。

  • 忽略

    忽略變更。

  • 暫停表格

    暫停表格。表格將在監控中顯示為錯誤。

  • 停止任務

    停止任務處理。如果您想手動處理所有結構描述變更,這非常實用。這也將停止排程,即不會進行排程的執行。

支援以下變更:

  • 新增欄

  • 重新命名欄

  • 變更欄資料類型

  • 建立符合選取模式的表格

    如果您使用 選取規則 來新增符合模式的資料集,將會偵測並新增符合該模式的新表格。

如需有關工作設定的詳細資訊,請參閱 結構描述演進

您也可以取得有關使用結構描述演進處理的變更通知。如需詳細資訊,請參閱 設定變更進行時的通知

結構描述演進的限制

以下限制適用於結構描述演進:

  • 只有在使用 CDC 作為更新方法時才支援結構描述演進。

  • 變更結構描述演進設定後,您必須重新準備任務。

  • 如果重新命名表格,則不支援結構描述演進。在這種情況下,您必須在準備任務之前重新整理中繼資料。

  • 如果您正在設計任務,則必須重新整理瀏覽器,才能接收結構描述演進變更。您可以設定通知以在發生變更時發出警示。

  • 在登陸任務中,不支援捨棄欄。捨棄欄並新增將會導致表格錯誤。

  • 在登陸任務中,捨棄表格操作不會捨棄表格。捨棄表格然後新增表格只會截斷舊的表格,而不會新增新的表格。

  • 並非所有目標都可以變更欄的長度,具體取決於目標資料庫的支援。

  • 如果變更欄名稱,則使用該欄定義的明確轉換將不會生效,因為這基於欄名稱。

  • 重新整理中繼資料的限制也適用於結構描述演進。

  • 如果任務包含尚未準備好的設計變更,且在執行任務時偵測到來源結構描述演進變更,則任務將會停止以避免衝突。準備暫停的設計變更,並再次執行任務。

擷取 DDL 變更時,適用以下限制:

  • 若來源資料庫中發生一系列快速操作 (例如 DDL>DML>DDL),Qlik Talend Data Integration 可能會以錯誤的順序剖析記錄,進而導致資料遺失或不可預測的行為。為了盡可能減少發生這種情況的可能性,最佳做法是先等待變更套用至目標,再執行下一個操作。

    例如,在變更擷取期間,如果來源表格連續快速重新命名多次 (而且第二次操作將其重新命名回原始名稱),則可能會遇到該表格已存在於目標資料庫的錯誤。

  • 如果您變更任務中使用的表格名稱,然後停止該任務,則在任務恢復進行後,Qlik Talend Data Integration 將不會擷取對該表格所做的任何變更。
  • 不支援在任務停止時重新命名來源表格。

  • 不支援重新配置表格的主要金鑰欄 (因此不會寫入到 DDL 歷史記錄控制表格)。
  • 如果停止任務,變更欄的資料類型然後重新命名 (相同的) 欄,則 DDL 變更將在 DDL 歷史記錄控制表格中顯示為「捨棄欄」,然後在任務恢復進行時顯示為「新增欄」。請注意,延長延遲也可能導致相同的行為。
  • 任務停止時在來源上執行的 CREATE TABLE 操作將在任務恢復進行時套用於目標,但不會在 DDL 歷史記錄控制表格中記錄為 DDL。
  • 如果在以下任一情況執行與中繼資料變更相關的操作 (例如 ALTER TABLE、重組、重建叢集索引等),可能會導致不可預測的行為:

    • 完整載入期間

      -或者-

    • 開始處理變更時間戳記和目前時間 (即使用者在進階執行選項對話方塊中按一下確定的那一刻) 之間。

      範例:

      IF:

      指定的開始處理變更時間是上午 10:00。

      AND:

      名為年齡的欄已在上午 10:10 新增至員工表格中。

      AND:

      使用者在上午 10:15 於進階執行選項 對話方塊中按下確定

      THEN:

      上午 10:00 和 10:10 之間發生的變化可能會導致 CDC 錯誤。

    資訊備註

    在上述任何一種情況下,必須載入受影響的表格,以便將資料正確地 已移動 至目標。

  • DDL 陳述式 ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> 不會將預設值複寫到目標,且新欄/修改的欄設定為 NULL。請注意,即使過去曾執行新增/修改該欄的 DDL,仍可能會發生此情況。如果新欄/修改的欄可為 Null,來源端點在記錄 DDL 本身之前會更新所有表格列。因此,Qlik Talend Data Integration 會擷取變更,但不會更新目標。由於新欄/修改的欄已設定為 NULL,如果目標表格沒有主要金鑰/唯一索引,後續更新將產生「零列受影響」的訊息。
  • 將不會擷取對時間戳記和日期精確度欄的修改。

處理未自動套用的變更

這說明如何處理無法套用到目標的變更,也就是動作為「忽略」、「暫停」或「停止工作」。

DDL 變更 若要實作變更 若要保留目前狀態
新增欄 重新整理中繼資料,準備工作,然後執行工作。 不需要任何動作
建立表格 重新整理中繼資料,準備工作,然後執行工作。 不需要任何動作
變更欄資料類型

檢查限制。如果沒有適用限制:

重新整理中繼資料,準備工作,然後執行工作。

不一定支援保留目前狀態。可能的因應措施:

  • 手動變更欄資料類型。這需要在下游工作中重複進行。

  • 建立新欄並將舊欄導向新欄,然後手動建立結合這兩個欄的檢視。

重新命名表格

檢查限制。如果沒有適用限制:

準備工作,然後執行工作。

定義明確的重新命名規則為舊名稱。
重新命名欄

檢查限制。如果沒有適用限制:

重新整理中繼資料,準備工作,然後執行工作。

重新整理中繼資料,然後定義明確的重新命名規則為舊名稱。

移除欄

如果您卸除由啟用歷程記錄的儲存資料工作所取用的欄,您需要遵循這些步驟來保留歷程記錄並避免可能的資料遺失。

  1. 停止登陸資料工作。

  2. 執行儲存資料工作以確保讀取所有登陸資料。

  3. 在登陸中卸除該欄。

  4. 執行登陸資料工作。

  5. 在儲存中,新增具有預設運算式 (Null 或預設值) 的欄,或卸除該欄。

檢視任務資訊

按一下功能表長條上的 資訊 以檢視任務資訊,例如:

  • 擁有者

  • 空間

  • 資料平台

  • 專案 ID

  • 資料任務執行階段 ID

變更來源連線或資料閘道

如果您變更來源連線或來源資料閘道,您必須重新建立所有表格。

登陸區域的維護

不支援自動清除登陸區域。這可能會影響效能。
我們建議您在登陸區域中手動清除舊的完整載入資料。

  • Qlik Cloud (透過 Amazon S3)

    如果有數個完整載入資料的資料夾,您可以刪除除了最新資料夾以外的所有資料夾。您也可以刪除已處理的變更資料分割區。

  • 雲端資料倉庫

    您可以刪除已處理的完整載入和變更表格記錄。

建議

  • 如果來源表格中的主索引鍵可以更新,請在 變更處理微調 中啟用 更新主索引鍵欄時刪除並插入 選項。

限制

  • 不支援複寫長度超過 8000 個位元組的 varchar 資料,或長度超過 4000 個位元組的 Nvarchar 資料。

  • 不支援在移動的欄上變更可為 Null 性,無論是直接變更還是使用轉換規則。然而,在工作中建立的新欄預設為可為 Null。

  • CLOB 和 BLOB 類型的來源欄預設將設定為可為 Null,即使在來源中標記為不可為 Null 也是如此。您可以將其變更為不可為 Null,但隨後您需要新增一個運算式以新增非 Null 值,以防它從來源到達時為 Null。這可能會在刪除的記錄上發生。

轉換受到下列限制:

  • 使用由右至左語言的欄不支援轉換。
  • 無法對名稱中包含特殊字元 (e.g. #, \, /, -) 的欄執行轉換。

  • 對 LOB/CLOB 資料類型唯一支援的轉換是捨棄目標的欄。
  • 不支援使用轉換重新命名欄,然後新增名稱相同的新欄。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!