建立與管理資料管道專案
您可以建立資料管道,使用資料工作在專案內執行所有資料整合。上線會將資料從內部部署或雲端的資料來源移至專案中,並將資料儲存在隨時可用的資料集中。您可以將資料上線至資料倉庫或 Qlik 開放湖倉庫。
當您將資料上線至資料倉庫時,您也可以執行轉換並建立資料超市,以利用您產生和轉換的資料集。資料管道可以簡單且呈線性,也可以是使用多個資料來源並產生許多輸出的複雜管道。
所有資料工作都將建立在與其所屬專案相同的空間中。
您也可以檢視譜系,以向後追蹤資料和資料轉換至原始來源,並執行影響分析,以顯示資料工作、資料集或欄位相依性的前瞻性下游檢視。如需詳細資訊,請參閱 在 資料整合 中使用譜系與影響分析。
將資料導入資料倉儲
這包括將資料登陸至預備區域,然後將資料集儲存在雲端資料倉庫中。登陸和儲存資料工作是在單一步驟中建立的。如果需要,您也可以使用個別的工作來執行登陸和儲存。
將資料上線至 Qlik 開放湖倉庫
建立 Qlik 開放湖倉庫 管道專案,將資料從任何支援的來源複製到 Iceberg 開放表格格式。可以從您的雲端資料倉庫分析引擎存取和查詢表格,而無需使用鏡像資料工作來複製資料。
註冊已存在於資料平台的資料
註冊資料平台上已存在的資料,以策展和轉換資料,並建立資料超市。這可讓您使用透過 Qlik Talend Data Integration 以外的其他工具 (例如 Qlik Replicate 或 Stitch) 上線的資料。
轉換資料
根據規則和自訂 SQL,對上線的資料建立可重複使用的列層級轉換。這會建立轉換資料工作。
建立與管理資料超市
建立資料超市以利用您的資料集。這會建立資料超市資料工作。
建立知識超市
建立知識超市,將您的結構化和非結構化資料內嵌並儲存在向量資料庫中。這會建立知識超市資料工作。
目標資料平台
專案與用作所有輸出目標的資料平台相關聯。
如需有關支援的資料平台的詳細資訊,請參閱 設定前往目標的連線。
專案影片簡介
建立專案的範例
下列範例執行資料上線、轉換資料並建立資料超市。這將建立一個簡單的線性資料管道,您可以透過將更多資料來源上線、建立更多轉換,以及將產生的資料工作新增至資料超市來擴充該管道。
專案中線性資料管道的範例
-
建立新專案。
在 Data Integration > Pipeline projects 中,按一下 Create new > Project。
-
輸入專案的名稱和描述。
資訊備註如果您稍後為專案啟用版本控制,則在版本控制下將無法變更專案名稱。 -
選取要在其中建立專案的空間。所有資料工作都將建立在其所屬專案的空間中。
- 在 Use case 中選取 Data pipeline。
-
選取要在專案中使用的資料平台。
-
選取您要在專案中使用的雲端資料倉庫連線。這將用於登陸資料檔案並儲存資料集和檢視。如果您尚未準備好連線,請使用 Create new 建立一個。
-
如果您選取 Google BigQuery、 Databricks 或 Microsoft Azure Synapse Analytics 作為資料平台,您還需要連線至預備區域。
-
如果您選取 Snowflake 作為資料平台,您可以選取將資料登陸至雲端儲存空間。請參閱 將資料登陸至湖存放庫。
-
如果您選取 Qlik Cloud 作為資料平台:
您可以將資料儲存在 Qlik 受管儲存空間中,或您自己管理的 Amazon S3 值區中。如果您想要使用自己的 Amazon S3 值區,您需要選取至該值區的連線。
在這兩種情況下,您還需要選取至 Amazon S3 預備區域的連線。如果您使用在上一個步驟中定義的相同值區,請確定您在值區中使用另一個資料夾進行預備。
-
-
按一下 Create。
專案已建立,您可以透過新增資料工作來建立資料管道。
-
-
將資料上線
在專案中,按一下 Create,然後按一下 Onboard data。
如需詳細資訊,請參閱 將資料導入資料倉儲。
這將建立登陸資料工作和儲存資料工作。若要開始複寫資料,您需要:
-
轉換資料
建立儲存資料工作後,返回專案。您現在可以對建立的資料集執行轉換。
按一下儲存資料工作上的 ...,然後選取 Transform data,以根據此儲存資料工作建立轉換資料工作。如需有關轉換的指示,請參閱 轉換資料。
-
建立資料超市
您可以根據儲存資料工作或轉換資料工作建立資料超市。
按一下資料工作上的 ...,然後選取 Create data mart 以建立資料超市資料工作。如需有關建立資料超市的指示,請參閱:
當您對儲存和轉換的資料集以及資料超市執行第一次完整載入後,您可以在分析應用程式中使用它們。如需有關建立分析應用程式的詳細資訊,請參閱 使用資料整合中產生的資料集來建立分析應用程式。
您也可以透過將更多資料來源上線來擴充資料管道,並在轉換或資料超市中將它們結合。
建立跨專案管道
您可以建立跨專案管道,其中一個工作可以使用另一個專案中的工作。這可讓您以幾種可能的方式實現分段:
-
您可以為每個組織單位建立獨立的資料移動管道,並在單一資料超市管道中使用輸出。
-
您可以建立單一資料移動管道,並在多個轉換管道中使用輸出。
轉換和資料超市工作可以使用位於另一個專案中的儲存和轉換工作。
-
您必須在所使用專案的空間中至少具有 Can consume 角色。
-
兩個專案必須位於相同的資料平台上。
工作的所有資料集都會與下游專案共用。這表示如果您想要實現資料集隔離,您必須透過建立轉換工作,在所使用的專案中過濾掉資料集。
在專案檢視中,您可以檢視被另一個專案使用的工作,以及目前專案中使用的其他專案的工作。目前專案之外的所有工作都顯示為灰色。相依性是透過參考而非名稱建立的,這表示您可以重新命名工作而不會破壞參考。這也表示如果您刪除被使用的工作並建立具有相同名稱的新工作,參考仍然會被破壞。
有幾種方法可以重複使用現有資料:
-
建立新專案
建立專案後,選取 Use data from another project 選項。
您可以建立轉換或資料超市,使用來自另一個管道的上線資料。
-
在轉換工作或資料超市工作中,您可以在 Select source data 中選取來自另一個專案的資料。
選取來源資料時,選取 Project。如果選取的專案處於版本控制之下,請選取 Branch。預設分支為 main。資料工作清單會更新以反映選取的分支。然後選取 Data task 以查看哪些資料集可用。
您可以選擇是否要顯示其他專案中使用此專案中工作的工作。
-
按一下 Layers,然後開啟或關閉 Cross-project output。
目前專案之外的所有工作都顯示為灰色。
版本控制限制
由於跨專案管道被拆分到多個專案中,這增加了使用版本控制時的複雜性。在這些範例中,Project1 被 Project2 使用。
跨專案管道的範例

-
Project2 可以使用 Project1 的特定分支。在轉換或資料超市工作的 Select source data 中選取分支。預設分支為 main。如果參考的專案未處於版本控制之下,則不會顯示分支選取器,且 Project2 會按原樣使用該專案。
-
您可以為 Project1 建立分支,但分支版本不會顯示它被 Project2 使用。
-
您可以將 Project2 合併到 main,但相依性仍然存在。
如果稍後刪除了在 Project1 中選取的分支,則參考的破壞方式與刪除參考的工作時相同。如果參考的工作在選取的分支上有不同的輸出,則參考的行為與參考的工作輸出變更時相同。
最佳實務
-
檢查所使用專案中的工作是否至少已準備就緒,以確保它們有效。
-
如果您計劃在租用戶之間匯出和匯入專案,如果在租用戶中保持空間和專案的名稱相同,將會更容易。如果名稱不同,您將需要在匯入專案時對應專案和工作。
-
如果您想要使用匯出和匯入來變更資料平台,所有具有相依性的專案都必須位於相同的平台上。
請遵循這些步驟以安全輕鬆地變更平台。在此範例中,被使用的專案稱為 Consumed,而從 Consumed 讀取的專案稱為 Consumer。
-
匯出 Consumed 和 Consumer。
-
將 Consumed 匯入至 Consumed_New,變更為新的資料平台。
-
將 Consumer 匯入至 Consumer_New,變更為與 Consumed_New 相同的資料平台,並將來源專案 (Consumed) 取代為 Consumed_New。
-
資料管道專案中的作業
您可以將資料工作可用的相同作業作為專案作業執行。這可讓您協調資料管道中的作業。
-
開啟和關閉排程
-
執行設計作業
-
開始和停止執行資料工作
-
刪除資料工作
按一下 Operations 以檢視進行中作業的狀態,或最新執行的作業。
您可以按一下 Stop operation 來停止進行中的作業。進行中的資料工作不會被停止,但會取消任何尚未開始的工作。
開啟和關閉排程
您可以在專案層級控制資料工作的排程。
-
按一下 ...,然後按一下 Schedule。
您可以為所有資料工作或選取的工作開啟或關閉排程。僅顯示已定義排程的工作。
資訊備註此選項不適用於以 Qlik Cloud 作為資料平台的專案。
如需有關排程個別資料工作的詳細資訊,請參閱:
執行設計作業
您可以對專案中的所有資料工作或選取的工作執行設計作業。這使得控制專案中的資料集工作變得更加容易,而不是在每個工作中單獨執行設計作業。
-
驗證
按一下 Validate 以驗證所有工作或選取的工作。自上次驗證作業以來已變更的資料工作會被預先選取。
資料工作會按管道順序進行驗證。
-
準備
按一下 Prepare 以準備所有工作或選取的工作。自上次準備作業以來已變更的資料工作會被預先選取。
您可以選取重新建立需要資料平台不支援的結構變更的資料集。這可能會導致資料遺失。
-
重新建立
按一下 ...,然後按一下 Recreate tables,以從來源為所有工作或選取的工作重新建立資料集。
資訊備註若個別表格發生問題,建議先嘗試載入表格,而非重新建立。重新建立表格可能會造成歷史資料損失。若有重大變更,您也必須準備取用重建資料任務的下游資料任務,以載入資料。
執行資料工作
您可以起始專案中所有資料工作或選取工作的執行,而不是單獨執行工作。例如,您可以執行所有具有以時間為基礎之排程的工作。這將起始具有以事件為基礎之排程的下游工作。
-
執行
按一下 Run 以起始所有工作或選取工作的執行。這會起始所有選取工作的執行,並在它們開始執行後立即完成。
您可以從所有準備好執行的工作中進行選取。具有以時間為基礎之排程的工作和使用 CDC 的工作會被預先選取。具有以事件為基礎之排程的工作不會被預先選取,因為它們將在有資料要處理時執行。
在以 Qlik Cloud 作為資料平台的專案中,所有登陸和儲存工作都會被預先選取。
資訊備註所有資料工作都是平行執行的。這表示相依性檢查可能會阻止某些工作執行。 -
停止
按一下 Stop 以停止所有工作或選取的工作。
您可以從正在執行的工作中進行選取。
刪除資料工作
-
按一下「刪除」以刪除專案中的所有資料工作或選取的工作。
無法刪除正在執行的工作,或被其他工作使用的工作。
變更專案的檢視
專案有兩種不同的檢視。您可以按一下 Pipeline view 在檢視之間切換。
-
管道檢視顯示資料工作的資料流程。
您可以按一下 Layers 來選擇要為資料工作顯示多少資訊。開啟或關閉下列資訊:
-
Status
-
Data freshness
-
Schedule
-
Cross-project output
這將顯示其他專案中使用此專案中工作的工作。目前專案之外的所有工作都顯示為灰色。
-
-
卡片檢視顯示包含有關資料工作資訊的卡片檢視。
您可以篩選資產類型和擁有者。
刪除專案
-
在 Pipeline projects 檢視中,按一下專案上的
,然後選取 Delete。
選取 Keep tables and views created by the tasks in this project 以保留通常在刪除專案後會被捨棄的表格和檢視。請注意,對於下列工作類型,即使未選取此選項,也將始終保留表格和檢視:
-
登陸工作
-
湖泊登陸工作
-
複寫工作
檢視資料
您可以檢視資料的樣本,以在設計資料管道時查看並驗證資料的形狀。
需要下列權限:
-
在 管理 中的租用戶層級啟用了檢視資料。
啟用 Settings > Feature control > Viewing data in 資料整合。
-
在連線所在的空間中,為您指派了 Can view data 角色。
-
在專案所在的空間中,為您指派了 Can view 角色。
若要在資料管道檢視中檢視樣本資料:
-
按一下管道檢視底部預覽橫幅中的
。
-
選取要預覽其資料的資料工作。
將顯示資料的樣本。您可以使用 Number of rows 設定樣本中要包含的資料列數。
匯出和匯入專案
您可以將專案匯出為 JSON 檔案,其中包含重建專案所需的一切。匯出的 JSON 檔案可以匯入到同一個租用戶或另一個租用戶上。例如,您可以使用此功能將專案從一個租用戶移動到另一個租用戶,或製作專案的備份副本。
如需詳細資訊,請參閱 匯出和匯入資料管道。
變更專案的擁有者
資料工作在其所屬專案擁有者的內容中運作。您可以變更專案的擁有者,將資料專案中所有工作的控制權轉移給另一位使用者。例如,如果有些專案是由已刪除的使用者所擁有,這將非常有用。
-
在專案檢視中,按一下 ...,然後按一下 Change owner。
擁有權變更將套用至專案中的所有工作。由專案中工作建立的所有已編目資料集也將變更擁有者。
變更資料平台連線
如果您變更專案的 Data platform 連線,您必須:
-
在所有登陸工作中重新建立表格。
-
準備專案中的所有其他工作。
檢視專案資訊
按一下功能表列上的 以檢視專案資訊,例如:
-
擁有者
-
空間
-
資料平台
-
專案 ID
專案設定
您可以設定專案和所有包含的資料工作通用的屬性。
-
按一下 Settings。
如需詳細資訊,請參閱 資料管道專案設定。