從資料來源登陸資料 | Qlik Cloud 說明
跳到主要內容 跳至補充內容

從資料來源登陸資料

上線時傳輸資料的第一步是登陸資料。這涉及將資料從資料來源傳輸到登陸區域。

您可以透過來源連線從多個資料來源登陸資料。

登陸區域是在您建立專案時定義的。

  • Qlik Cloud (透過 Amazon S3)

    當您將資料登陸到 Qlik Cloud (透過 Amazon S3) 時,您可以使用它來產生已準備好在 Qlik Cloud 中進行分析的 QVD 表。

  • 雲端資料倉庫

    當您將資料登陸到雲端資料倉庫,例如 SnowflakeAzure Synapse Analytics 時,您可以將表儲存在同一個雲端資料倉庫中。

  • Qlik 開放湖倉庫

    當您將資料登陸到 Qlik 開放湖倉庫 時,您的資料會以 Iceberg 開放式資料表格式儲存,並可以鏡像到您的雲端資料倉庫。

您也可以將資料登陸到 Lakehouse,其中資料會登陸到由 Snowflake 管理的雲端檔案儲存體。如需詳細資訊,請參閱 將資料登陸至湖存放庫

資訊備註資料任務在所屬的專案擁有者的內容中操作。如需有關所需角色和權限的詳細資訊,請參閱 資料空間角色與權限

建立並設定登陸資料工作

這說明如何建立登陸資料工作。建立資料管道最快的方法是上線資料,這會建立一個登陸資料工作和一個儲存資料工作,隨時可以準備和執行。如需詳細資訊,請參閱 將資料導入資料倉儲

  1. 在您的專案中,按一下 建立 並選取 登陸資料

  2. 登陸資料 對話方塊中,輸入資料工作的名稱和說明。

    選取 開啟 以在建立登陸資料工作時將其開啟。

    按一下 建立

  3. 按一下 選取來源資料

  4. 選取與來源資料的連線,然後按一下 下一步

    您可以使用左側面板中的篩選器,依來源類型、空間和擁有者篩選連線清單。

    如果您尚未建立與來源資料的連線,則需要先按一下 新增連線 來建立一個。

    如需設定支援來源連線的詳細資訊,請參閱 設定前往資料來源的連線

    資訊備註在下一步中選取資料表後,就無法將來源連線從內部部署資料來源變更為雲端資料來源,反之亦然。您只能將連線變更為相同類型的另一個資料來源。
  5. 選取要包含在資料工作中的資料集。選取對話方塊會因您連線的來源類型而異。

    選取完資料表後,按一下 儲存

    系統會顯示 資料集

  6. 您可以變更登陸的設定。這不是必要步驟。

    • 按一下 設定

    如需設定的詳細資訊,請參閱 登陸設定

  7. 您現在可以預覽選取之資料資產表的結構和中介資料。這包括所有明確列出的資料表,以及符合選取規則的資料表。

    如果您想從資料來源新增更多資料表,請按一下 選取來源資料

  8. 您可以對資料集進行基本轉換,例如篩選資料或新增資料行。這不是必要步驟。

    如需詳細資訊,請參閱 管理資料集

  9. 新增所需的轉換後,您可以按一下 驗證資料集 來驗證資料集。如果驗證發現錯誤,請先修正錯誤再繼續。

    如需詳細資訊,請參閱 驗證並調整資料集

  10. 準備就緒後,按一下 準備 以編錄資料工作並準備執行。

    您可以在螢幕下方的 準備進度 下追蹤進度。

  11. 準備好資料工作,且您已準備好開始複寫資料時,按一下 執行

複寫現在應該會開始,您可以在 監視 中查看進度。如需詳細資訊,請參閱 監視個別資料工作

從資料庫選取資料

您可以選取特定表格或檢視,或使用選取規則以納入或排除表格群組。

資訊備註如果選取項目包含檢視,則不支援 CDC。

可使用 % 作為萬用字元,為架構和表格定義選取標準。

  • %.% 可定義所有架構中的所有表格。

  • Public.% 可定義架構 Public 中的所有表格。

選取標準可依照您的選取項目提供預覽。

您現在可以:

  • 建立規則,以基於選取標準納入或排除表格群組。

    按一下從選取標準新增規則以建立規則,再選取納入排除

    您可在選取規則之下看見此規則。

  • 選取一或多個資料集,按一下新增所選的資料集

    您可在明確選取的資料集之下看見新增的資料集。

選取規則僅套用到目前的表格和檢視組,不會套用到日後新增的表格和檢視。

使用 變更資料擷取 (CDC) 執行登陸工作

您可以在準備好登陸工作後執行該工作。這會啟動複寫,將資料從內部部署資料來源傳輸到登陸區域。

  • 按一下 執行 以開始登陸資料。

複寫現在應該會開始,且資料工作的狀態將為 執行中。首先會複製完整的資料來源,然後追蹤變更。這意味著系統會持續追蹤變更,並在發現變更時進行傳輸。這可保持登陸區域中的登陸資料為最新狀態。

Qlik Talend Data Integration 首頁中,您可以檢視狀態、登陸資料更新的日期和時間,以及發生錯誤的資料表數量。您也可以開啟資料工作並選取 資料表 索引標籤,以檢視資料表的基本中介資料資訊。

您可以透過開啟 監視 索引標籤來詳細監視進度。如需詳細資訊,請參閱 監視個別資料工作

當所有資料表都已載入且第一組變更已處理時,資料工作卡上的 資料更新至 表示截至該時間的來源變更在資料工作中可用。

重新載入資料表

您可以從來源重新載入資料。

重新載入單一資料表

您可以手動重新載入特定資料表,而不會干擾變更資料擷取。當一個或多個資料表出現 CDC 問題時,這非常有用。

  1. 開啟登陸資料工作並選取 監視 索引標籤。

  2. 選取您要重新載入的資料表。

  3. 按一下 重新載入資料表

資訊備註此選項將在該登陸工作至少執行一次後可用。 如果在登陸工作未執行時按一下,資料表將在下次工作執行時重新載入。

如果您無法透過重新載入資料表來解決問題,或者問題影響了整個工作,您可以改為將所有資料表重新載入到目標。這將重新啟動變更資料擷取。

將所有資料表重新載入到目標

如果您遇到無法透過重新載入特定資料表來解決的 CDC 問題,可以將所有資料表重新載入到目標。問題的範例包括遺失事件、來源資料庫重組引起的問題,或讀取來源資料庫事件時失敗。

資訊備註此作業僅適用於更新方法為 變更資料擷取 (CDC) 且至少執行過一次的工作。

  1. 停止資料任務和取用資料任務的所有任務。
  2. 開啟資料任務並選取監控索引標籤。

  3. 按一下 ...,然後按一下載入目標

這會使用捨棄-建立將所有表格載入到目標,並且將會重新啟動從現在起的所有變更資料擷取。

  • 將會在下次執行以進行同步時透過比較和套用載入取用登陸資料任務的儲存任務。將會保留現有歷史記錄。將會更新類型 2 歷史記錄,以在執行載入並比較流程後反映變更。

    類型 2 歷史記錄中的起始日期時間戳記將會反映載入日期,而不必是來源中發生變更的日期。

  • 在儲存同步之前,儲存即時檢視在載入目標操作期間並不可靠。儲存將會在下列情況完全同步:

    • 使用比較和套用載入所有表格,

    • 為每個表格執行一次變更循環。

資訊備註不支援中介資料變更。如果來源中存在中介資料變更,它們會在重新載入資料時傳播到登陸,但無法正確處理。這可能會導致取用儲存失敗。

使用 重新載入並比較 執行登陸資料工作

您可以在準備好登陸資料工作後,使用該工作複製資料。

  • 按一下 執行 以開始完整載入。

現在將開始複製資料,且資料工作的狀態將為 執行中。複製完完整的資料來源後,狀態為 已完成

Qlik Talend Data Integration 首頁中,您可以檢視狀態、登陸資料更新的日期和時間,以及發生錯誤的資料表數量。您也可以開啟資料工作並選取 資料表 索引標籤,以檢視資料表的基本中介資料資訊。

您可以透過開啟 監視 索引標籤來詳細監視進度。如需詳細資訊,請參閱 監視個別資料工作

當所有資料表都已載入時,資料工作卡上的 資料更新至 表示截至該時間的來源變更在資料資產中可用。然而,資料工作的某些資料表可能會更新到較晚的時間,這取決於它們何時開始載入。這意味著無法保證資料一致性。例如,如果載入於 08:00 開始且花費了 4 小時,則在載入完成時,資料更新至 將顯示 08:00。然而,在 11:30 開始重新載入的資料表將包含 08:00 到 11:30 之間發生的來源變更。

資料更新至 僅反映成功載入的資料表。它不表示任何關於重新載入失敗的資料表的資訊。在雲端目標中,如果重新載入完成時所有資料表都發生錯誤,則該欄位將為空。

使用 重新載入並比較 時重新載入資料

當您使用 重新載入並比較 作為更新方法時,您需要重新載入資料以保持其與資料來源同步更新。

  • 按一下 重新載入 以手動重新載入所有資料表。

  • 設定排程重新載入。

重新載入單一資料表

您可以手動重新載入特定資料表。當一個或多個資料表出現問題時,這非常有用。

  1. 開啟登陸資料工作並選取 監視 索引標籤。

  2. 選取您要重新載入的資料表。

  3. 按一下 重新載入資料表

資訊備註
  • 此選項將在登陸工作至少執行一次後可用,且僅在工作未執行時可用。
  • 不支援中介資料變更。如果來源中存在中介資料變更,它們會在重新載入資料時傳播到登陸,但無法正確處理。這可能會導致取用儲存失敗。

排程 重新載入並比較 登陸資料工作

如果您在資料工作的空間中擁有 可操作 角色或 可編輯 角色,則可以為登陸資料工作排程定期重新載入。資料工作狀態必須至少為 已準備,排程才能啟用。

  • 按一下資料工作上的 ... 並選取 排程

    您可以設定基於時間的排程。

    如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔

資訊備註如果排程重新載入即將開始時資料工作仍在重新載入,則會跳過該排程重新載入,直到下一個排程重新載入事件。

設定資料集的載入優先順序

您可以透過為每個資料集指定載入優先順序,控制資料任務中資料集的載入順序。例如,如果您希望在大型資料集之前先載入較小的資料集,這會很有用。

  1. 按一下載入優先順序

  2. 為每個資料集選擇一種載入優先順序。

    預設的載入優先順序為一般。資料集將會依照下列優先順序載入:

    • 最高

    • 較高

    • 正常

    • 較低

    • 最低

    具有相同優先順序的資料集不會按特定順序載入。

  3. 按一下確定

資訊備註SaaS 應用程式來源中的資料集可能依載入順序包含相依性。設定載入優先順序時,請考慮這一點。

登陸資料工作上的作業

您可以從工作功能表中對登陸資料工作執行以下作業。

  • 開啟

    這會開啟登陸資料工作。您可以檢視資料表結構和關於資料工作的詳細資訊。

  • 編輯

    您可以編輯工作的名稱和說明。

  • 刪除

    您可以刪除資料工作。

    以下物件不會被刪除:

    • 登陸區域中的資料

    • 目標平台中的結構描述

  • 執行

    您可以執行資料工作以開始複製資料。

    使用 變更資料擷取 (CDC) 執行登陸工作

    使用 重新載入並比較 執行登陸資料工作

  • 停止

    您可以停止正在執行的資料工作的作業。登陸區域不會更新變更的資料。

    當您停止具有重新載入排程的完整載入資料工作時,只有目前的重新載入會停止。如果資料工作狀態為 已停止 且有作用中的重新載入排程,它將在下一個排程時間再次重新載入。您必須在 排程重新載入 中關閉重新載入排程。

  • 重新載入

    您可以在 重新載入並比較 更新模式下,手動重新載入資料工作。

  • 準備

    這會準備要執行的工作。這包括:

    • 驗證設計是否有效。

    • 建立或變更實體資料表和檢視以符合設計。

    • 產生資料工作的 SQL 程式碼。

    • 建立或變更工作輸出資料集的編錄項目。

    您可以在螢幕下方的 準備進度 下追蹤進度。

    資訊備註在準備任務之前,請停止直接下游處理的所有任務。
  • 重新建立資料表

    這會從來源重新建立資料集。

    資訊備註若個別表格發生問題,建議先嘗試載入表格,而非重新建立。重新建立表格可能會造成歷史資料損失。若有重大變更,您也必須準備取用重建資料任務的下游資料任務,以載入資料。
  • 排程

    您可以為 完整載入 模式下的登陸資料工作設定排程重新載入。您可以設定可自訂的基於時間的排程。

    您也可以開啟或關閉排程重新載入。

    您必須在資料工作的空間中擁有 可操作 角色才能排程重新載入。

  • 儲存資料

    您可以建立一個使用此登陸資料工作之資料的儲存資料工作。

正在重新整理中繼資料

您可以在任務的設計檢視中重新整理任務中的中繼資料,以符合來源中繼資料中的變更。對於使用 Metadata Manager 的 SaaS 應用程式,必須先重新整理 Metadata Manager,才能重新整理資料任務中的中繼資料。

資訊備註使用 SaaS 應用程式預覽連接器時,此操作不適用。在建立連線對話方塊和線上說明中,預覽連接器以 預覽按鈕的影像 按鈕指示。
資訊備註此操作只會影響任務的設計檢視中的表格。
  1. 您可以進行以下任一項:

    • 按一下 ...,然後按一下重新整理中繼資料,以對任務中的所有資料集重新整理中繼資料。

    • 資料集中的資料集按一下 ...,然後按一下重新整理中繼資料,以對單一資料集重新整理中繼資料。

    您可以在畫面下方部分的重新整理中繼資料之下檢視中繼資料重新整理狀態。您可以將游標暫留在 資訊按鈕 上方,以查看上次重新整理中繼資料的時間。

  2. 準備資料任務以套用變更。

    準備資料任務並套用變更後,會從重新整理中繼資料移除變更。

您必須準備取用此任務的儲存任務以散佈變更。

若移除欄,會新增具有 Null 值的轉換,以確保儲存不會失去歷史資料。

重新整理中繼資料的限制

  • 若有相同的資料類型和資料長度,則在此之前於相同時段以捨棄的欄重新命名,將會轉譯為捨棄的欄重新命名。

    範例:  

    之前:a b c d

    之後:a c1 d

    在此範例中,捨棄了 b,而 c 重新命名為 c1,且 bc 有相同的資料類型和資料長度。

    這將會識別為從 b 重新命名為 c1 並捨棄 c

  • 不會辨識最後一欄重新命名,即使已捨棄最後一欄並重新命名前一欄,也是如此。

    範例:  

    之前:a b c d

    之後:a b c1

    在此範例中,捨棄了 dc 重新命名為 c1

    這將會識別為捨棄 cd,並新增 c1

  • 會假設新的欄在末尾新增。若在中間新增資料類型與下一欄相同的欄,可能會解譯為捨棄並重新命名。

結構描述演變

結構描述演進讓您可以輕鬆偵測多個資料來源的結構變更,然後控制如何將這些變更套用至您的任務。結構描述演進可用於偵測對來源資料結構描述所做的 DDL 變更。您也可以自動套用一些變更。

資訊備註結構描述演進不適用於透過 SaaS 應用程式精簡版連接器或透過 Qlik Talend Cloud 啟動器 訂閱定義的任務。這部分適用於透過 SaaS 應用程式預覽連接器定義的任務。

對於每種變更類型,您可以在任務設定的結構描述演進區段中選取如何處理變更。 您可以套用變更、忽略變更、暫停表格或停止任務處理。

您可以設定使用哪個動作來處理每種變更類型的 DDL 變更。某些動作不一定適用於所有變更類型。

  • 套用至目標

    自動套用變更。

  • 忽略

    忽略變更。

  • 暫停表格

    暫停表格。表格將在監控中顯示為錯誤。

  • 停止任務

    停止任務處理。如果您想手動處理所有結構描述變更,這非常實用。這也將停止排程,即不會進行排程的執行。

支援以下變更:

  • 新增資料行

  • 重新命名資料行

  • 變更資料行資料類型

  • 建立符合選取模式的資料表

    如果您使用 選取規則 來新增符合模式的資料集,系統將會偵測並新增符合該模式的新資料表。

如需工作設定的詳細資訊,請參閱 結構描述演進

您也可以取得有關透過結構描述演變處理之變更的通知。如需詳細資訊,請參閱 設定變更進行時的通知

結構描述演進的限制

以下限制適用於結構描述演進:

  • 只有在使用 CDC 作為更新方法時才支援結構描述演進。

  • 變更結構描述演進設定後,您必須重新準備任務。

  • 如果重新命名表格,則不支援結構描述演進。在這種情況下,您必須在準備任務之前重新整理中繼資料。

  • 如果您正在設計任務,則必須重新整理瀏覽器,才能接收結構描述演進變更。您可以設定通知以在發生變更時發出警示。

  • 在登陸任務中,不支援捨棄欄。捨棄欄並新增將會導致表格錯誤。

  • 在登陸任務中,捨棄表格操作不會捨棄表格。捨棄表格然後新增表格只會截斷舊的表格,而不會新增新的表格。

  • 並非所有目標都可以變更欄的長度,具體取決於目標資料庫的支援。

  • 如果變更欄名稱,則使用該欄定義的明確轉換將不會生效,因為這基於欄名稱。

  • 重新整理中繼資料的限制也適用於結構描述演進。

  • 如果任務包含尚未準備好的設計變更,且在執行任務時偵測到來源結構描述演進變更,則任務將會停止以避免衝突。準備暫停的設計變更,並再次執行任務。

擷取 DDL 變更時,適用以下限制:

  • 若來源資料庫中發生一系列快速操作 (例如 DDL>DML>DDL),Qlik Talend Data Integration 可能會以錯誤的順序剖析記錄,進而導致資料遺失或不可預測的行為。為了盡可能減少發生這種情況的可能性,最佳做法是先等待變更套用至目標,再執行下一個操作。

    例如,在變更擷取期間,如果來源表格連續快速重新命名多次 (而且第二次操作將其重新命名回原始名稱),則可能會遇到該表格已存在於目標資料庫的錯誤。

  • 如果您變更任務中使用的表格名稱,然後停止該任務,則在任務恢復進行後,Qlik Talend Data Integration 將不會擷取對該表格所做的任何變更。
  • 不支援在任務停止時重新命名來源表格。

  • 不支援重新配置表格的主要金鑰欄 (因此不會寫入到 DDL 歷史記錄控制表格)。
  • 如果停止任務,變更欄的資料類型然後重新命名 (相同的) 欄,則 DDL 變更將在 DDL 歷史記錄控制表格中顯示為「捨棄欄」,然後在任務恢復進行時顯示為「新增欄」。請注意,延長延遲也可能導致相同的行為。
  • 任務停止時在來源上執行的 CREATE TABLE 操作將在任務恢復進行時套用於目標,但不會在 DDL 歷史記錄控制表格中記錄為 DDL。
  • 如果在以下任一情況執行與中繼資料變更相關的操作 (例如 ALTER TABLE、重組、重建叢集索引等),可能會導致不可預測的行為:

    • 完整載入期間

      -或者-

    • 開始處理變更時間戳記和目前時間 (即使用者在進階執行選項對話方塊中按一下確定的那一刻) 之間。

      範例:

      IF:

      指定的開始處理變更時間是上午 10:00。

      AND:

      名為年齡的欄已在上午 10:10 新增至員工表格中。

      AND:

      使用者在上午 10:15 於進階執行選項 對話方塊中按下確定

      THEN:

      上午 10:00 和 10:10 之間發生的變化可能會導致 CDC 錯誤。

    資訊備註

    在上述任何一種情況下,必須載入受影響的表格,以便將資料正確地 已移動 至目標。

  • DDL 陳述式 ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> 不會將預設值複寫到目標,且新欄/修改的欄設定為 NULL。請注意,即使過去曾執行新增/修改該欄的 DDL,仍可能會發生此情況。如果新欄/修改的欄可為 Null,來源端點在記錄 DDL 本身之前會更新所有表格列。因此,Qlik Talend Data Integration 會擷取變更,但不會更新目標。由於新欄/修改的欄已設定為 NULL,如果目標表格沒有主要金鑰/唯一索引,後續更新將產生「零列受影響」的訊息。
  • 將不會擷取對時間戳記和日期精確度欄的修改。

處理未自動套用的變更

這說明如何處理無法套用到目標的變更,即動作為「忽略」、「暫停」或「停止工作」。

DDL 變更 若要實作變更 若要保留目前狀態
新增資料行 重新整理中介資料、準備工作,然後執行工作。 無需執行任何動作
建立資料表 重新整理中介資料、準備工作,然後執行工作。 無需執行任何動作
變更資料行資料類型

檢查限制。如果沒有適用的限制:

重新整理中介資料、準備工作,然後執行工作。

並不總是支援保留目前狀態。可能的因應措施:

  • 手動變更資料行資料類型。這需要在下游工作中重複進行。

  • 建立一個新資料行並將舊資料行導向新資料行,然後手動建立一個結合這兩個資料行的檢視。

重新命名資料表

檢查限制。如果沒有適用的限制:

準備工作,然後執行工作。

定義一個指向舊名稱的明確重新命名規則。
重新命名資料行

檢查限制。如果沒有適用的限制:

重新整理中介資料、準備工作,然後執行工作。

重新整理中介資料,然後定義一個指向舊名稱的明確重新命名規則。

移除資料行

如果您刪除由已啟用歷程記錄之儲存資料工作所取用的資料行,則需要遵循以下步驟以保留歷程記錄並避免可能的資料遺失。

  1. 停止登陸資料工作。

  2. 執行儲存資料工作以確保讀取所有登陸資料。

  3. 在登陸中刪除該資料行。

  4. 執行登陸資料工作。

  5. 在儲存中,使用預設運算式 (Null 或預設值) 新增該資料行,或刪除該資料行。

檢視任務資訊

按一下功能表長條上的 資訊 以檢視任務資訊,例如:

  • 擁有者

  • 空間

  • 資料平台

  • 專案 ID

  • 資料任務執行階段 ID

變更來源連線或資料閘道

如果您變更來源連線或來源資料閘道,則必須重新建立所有資料表。

登陸區域的維護

不支援自動清理登陸區域。這可能會影響效能。
我們建議您手動清理登陸區域中舊的完整載入資料。

  • Qlik Cloud (透過 Amazon S3)

    如果有多個完整載入資料的資料夾,您可以刪除除了最新資料夾之外的所有資料夾。您也可以刪除已處理的變更資料分割區。

  • 雲端資料倉庫

    您可以刪除已處理的完整載入和變更資料表記錄。

建議

  • 如果來源資料表中的主索引鍵可以更新,請啟用 變更處理微調 中的 更新主索引鍵資料行時進行 DELETE 和 INSERT 選項。

限制

  • 不支援複寫長度超過 8000 位元組的 varchar 資料,或長度超過 4000 位元組的 Nvarchar 資料。

  • 對於移動的資料行,不支援變更其可為 Null 性 (無論是直接變更還是使用轉換規則)。然而,在工作中建立的新資料行預設為可為 Null。

  • CLOB 和 BLOB 類型的來源資料行預設會設定為可為 Null,即使在來源中標記為不可為 Null 也是如此。您可以將其變更為不可為 Null,但隨後您需要新增一個運算式以在從來源傳入 Null 值時新增非 Null 值。這可能會發生在已刪除的記錄上。

轉換受到下列限制:

  • 使用由右至左語言的欄不支援轉換。
  • 無法對名稱中包含特殊字元 (e.g. #, \, /, -) 的欄執行轉換。

  • 對 LOB/CLOB 資料類型唯一支援的轉換是捨棄目標的欄。
  • 不支援使用轉換重新命名欄,然後新增名稱相同的新欄。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!