建立資料管道專案 | Qlik Cloud 說明
跳到主要內容 跳至補充內容

建立資料管道專案

您可以建立資料管道,使用資料工作在專案內執行所有資料整合。上線會將資料從內部部署或雲端的資料來源移至專案中,並將資料儲存在隨時可用的資料集中。您可以將資料上線至資料倉庫或 Qlik 開放湖倉庫

將資料上線至資料倉庫時,您也可以執行轉換並建立資料超市,以利用您產生和轉換的資料集。資料管道可以簡單且呈線性,也可以是使用多個資料來源並產生許多輸出的複雜管道。

資訊備註資料管道專案不支援 SaaS 應用程式預覽連接器。若要了解您的連接器是否處於預覽狀態,請參閱連接器說明。

所有資料工作都將建立在與其所屬專案相同的空間中。

您也可以檢視譜系,以向後追蹤資料和資料轉換至原始來源,並執行影響分析,以顯示資料工作、資料集或欄位相依性的前瞻性下游檢視。如需詳細資訊,請參閱 在 資料整合 中使用譜系和影響分析

資訊備註若要建立管道專案,您必須具有具備 Pipeline projects (管道專案) 權限的自訂角色,或者必須在 User Default (使用者預設) 設定中啟用該權限。如需詳細資訊,請參閱 User Default 和自訂角色中的權限

將資料導入資料倉儲

這包括將資料登陸至預備區域,然後將資料集儲存在雲端資料倉庫中。登陸和儲存資料工作是在單一步驟中建立的。如有需要,您也可以使用個別的工作來執行登陸和儲存。

將資料上線至 Qlik 開放湖倉庫

建立 Qlik 開放湖倉庫 管道專案,將資料從任何支援的來源複製到 Iceberg 開放資料表格式。您可以從雲端資料倉庫分析引擎存取和查詢資料表,而無需使用鏡像資料工作來複製資料。

註冊已存在於資料平台的資料

註冊資料平台上已存在的資料,以策劃和轉換資料,並建立資料超市。這可讓您使用透過 Qlik Talend Data Integration 以外的其他工具 (例如 Qlik Replicate 或 Stitch) 上線的資料。

轉換資料

根據規則和自訂 SQL,對上線資料建立可重複使用的列層級轉換。這會建立「轉換資料」工作。

建立與管理資料超市

建立資料超市以利用您的資料集。這會建立「資料超市」資料工作。

建立知識超市

建立知識超市,將結構化和非結構化資料內嵌並儲存在向量資料庫中。這會建立「知識超市」資料工作。

目標資料平台

專案與用作所有輸出目標的資料平台相關聯。

如需有關支援的資料平台的詳細資訊,請參閱 設定前往目標的連線

專案的影片簡介

video thumbnail

建立專案的範例

下列範例會執行資料上線、轉換資料並建立資料超市。這將建立一個簡單的線性資料管道,您可以透過將更多資料來源上線、建立更多轉換,以及將產生的資料工作新增至資料超市來擴充該管道。

專案中線性資料管道的範例

資料管道的流程圖
  1. Data Integration (資料整合) > Pipeline projects (管道專案) 中,按一下 Create new (建立新項目) > Project (專案)。

    1. 輸入專案的名稱和描述。

      資訊備註如果您稍後為專案啟用版本控制,則在版本控制下將無法變更專案名稱。
    2. 選取要在其中建立專案的空間。所有資料工作都將建立在其所屬專案的空間中。

    3. Use case (使用案例) 中選取 Data pipeline (資料管道)。
    4. 選取要在專案中使用的資料平台。

    5. 選取您要在專案中使用的雲端資料倉庫連線。這將用於登陸資料檔案並儲存資料集和檢視。如果您尚未準備好連線,請使用 Create new (建立新項目) 建立一個。

      • 如果您選取 Google BigQueryDatabricksMicrosoft Azure Synapse Analytics 作為資料平台,您還需要連線至預備區域。

      • 如果您選取 Snowflake 作為資料平台,您可以選取將資料登陸至雲端儲存空間。請參閱 將資料登陸至湖存放庫

      • 如果您選取 Qlik Cloud 作為資料平台:

        您可以將資料儲存在 Qlik 受管儲存空間,或您自己管理的 Amazon S3 值區中。如果您想要使用自己的 Amazon S3 值區,則需要選取至該值區的連線。

        在這兩種情況下,您還需要選取至 Amazon S3 預備區域的連線。如果您使用在上一個步驟中定義的相同值區,請確定您在值區中使用另一個資料夾進行預備。

    6. 按一下 Create (建立)。

      專案已建立,您可以透過新增資料工作來建立資料管道。

  2. 在專案中,按一下 Create (建立),然後按一下 Onboard data (將資料上線)。

    如需詳細資訊,請參閱 將資料導入資料倉儲

    這將建立登陸資料工作和儲存資料工作。若要開始複寫資料,您需要:

  3. 建立儲存資料工作後,請返回專案。您現在可以對建立的資料集執行轉換。

    按一下儲存資料工作上的 ...,然後選取 Transform data (轉換資料),以根據此儲存資料工作建立轉換資料工作。如需有關轉換的指示,請參閱 轉換資料

  4. 您可以根據儲存資料工作或轉換資料工作建立資料超市。

    按一下資料工作上的 ...,然後選取 Create data mart (建立資料超市) 以建立資料超市資料工作。如需有關建立資料超市的指示,請參閱:

    建立與管理資料超市

當您對儲存和轉換的資料集以及資料超市執行第一次完整載入後,您可以在分析應用程式中使用它們。如需有關建立分析應用程式的詳細資訊,請參閱 使用資料整合中產生的資料集來建立分析應用程式

您也可以透過將更多資料來源上線來擴充資料管道,並在轉換或資料超市中將它們結合起來。

建置跨專案管道

您可以建置跨專案管道,其中一個工作可以使用另一個專案中的工作。這可讓您透過幾種可能的方式實現分段:

  • 您可以為每個組織單位建立獨立的資料移動管道,並在單一資料超市管道中使用輸出。

  • 您可以建立單一資料移動管道,並在多個轉換管道中使用輸出。

警告備註在任何情況下,都不要在資料管道專案中建立循環工作相依性。循環工作相依性會嚴重影響穩定性、效能和可維護性。

「轉換」和「資料超市」工作可以使用位於另一個專案中的「儲存」和「轉換」工作。

  • 您必須在所使用專案的空間中至少具有 Can consume (可使用) 角色。

  • 兩個專案必須位於相同的資料平台上。

工作的所有資料集都會與下游專案共用。這表示如果您想要實現資料集隔離,則必須透過建立轉換工作,在所使用的專案中篩選出資料集。

在專案檢視中,您可以檢視被另一個專案使用的工作,以及目前專案中所使用來自其他專案的工作。目前專案外部的所有工作都會顯示為灰色。相依性是透過參考而非名稱建立的,這表示您可以重新命名工作而不會中斷參考。這也表示如果您刪除被使用的工作並建立具有相同名稱的新工作,參考仍然會中斷。

有幾種方法可以重複使用現有資料:

  • 建立新專案

    建立專案後,選取 Use data from another project (使用來自另一個專案的資料) 選項。

    您可以建立轉換或資料超市,使用來自另一個管道的上線資料。

  • 在「轉換」工作或「資料超市」工作中,您可以在 Select source data (選取來源資料) 中選取來自另一個專案的資料。

    選取來源資料時,請選取 Project (專案)。如果選取的專案處於版本控制之下,請選取 Branch (分支)。預設分支為 main。資料工作清單會更新以反映選取的分支。然後選取 Data task (資料工作) 以查看哪些資料集可用。

您可以選擇是否要顯示其他專案中使用此專案中工作的工作。

  • 按一下 Layers (圖層),然後開啟或關閉 Cross-project output (跨專案輸出)。

目前專案外部的所有工作都會顯示為灰色。

版本控制限制

由於跨專案管道分散在多個專案中,這會增加使用版本控制時的複雜性。在這些範例中,Project1Project2 使用。

跨專案管道的範例

  • Project2 可以使用 Project1 的特定分支。在轉換或資料超市工作的 Select source data (選取來源資料) 中選取分支。預設分支為 main。如果參考的專案未處於版本控制之下,則不會顯示分支選取器,且 Project2 會依原樣使用該專案。

  • 您可以為 Project1 建立分支,但分支版本不會顯示它被 Project2 使用。

  • 您可以將 Project2 合併到 main,但相依性仍然會存在。

資訊備註

如果稍後刪除在 Project1 中選取的分支,則參考中斷的方式與刪除參考工作時相同。如果參考工作在選取的分支上有不同的輸出,則參考的行為與參考工作輸出變更時相同。

最佳實務

  • 檢查所使用專案中的工作是否至少已準備就緒,以確保它們有效。

  • 如果您計劃在租用戶之間匯出和匯入專案,如果在租用戶中保持相同的空間和專案名稱,將會更容易。如果名稱不同,您將需要在匯入專案時對應專案和工作。

  • 如果您想要使用匯出和匯入來變更資料平台,所有具有相依性的專案都必須位於相同的平台上。

    請遵循這些步驟以安全輕鬆地變更平台。在此範例中,被使用的專案稱為 Consumed,而從 Consumed 讀取的專案稱為 Consumer

    1. 匯出 ConsumedConsumer

    2. Consumed 匯入至 Consumed_New,變更為新的資料平台。

    3. Consumer 匯入至 Consumer_New,變更為與 Consumed_New 相同的資料平台,並將來源專案 (Consumed) 取代為 Consumed_New

資料管道專案中的作業

您可以將資料工作可用的相同作業作為專案作業執行。這可讓您協調資料管道中的作業。

資訊備註每個專案一次只能執行一項專案作業。
  • 開啟和關閉排程

  • 執行設計作業

  • 開始和停止執行資料工作

  • 刪除資料工作

按一下 Operations (作業) 以檢視進行中作業的狀態,或最新執行的作業。

您可以按一下 Stop operation (停止作業) 來停止進行中的作業。進行中的資料工作不會停止,但會取消任何尚未開始的工作。

開啟和關閉排程

您可以在專案層級控制資料工作的排程。

  • 按一下 ...,然後按一下 Schedule (排程)。

    您可以為所有資料工作或選取的工作開啟或關閉排程。僅顯示已定義排程的工作。

    資訊備註此選項不適用於以 Qlik Cloud 作為資料平台的專案。

如需有關排程個別資料工作的詳細資訊,請參閱:

執行設計作業

您可以對專案中的所有資料工作或選取的工作執行設計作業。這可讓您更輕鬆地控制專案中的資料集工作,而不是在每個工作中個別執行設計作業。

  • 驗證

    按一下 Validate (驗證) 以驗證所有工作或選取的工作。自上次驗證作業以來已變更的資料工作會預先選取。

    資料工作會依管道順序進行驗證。

  • 準備

    按一下 Prepare (準備) 以準備所有工作或選取的工作。自上次準備作業以來已變更的資料工作會預先選取。

    您可以選取重新建立需要資料平台不支援之結構變更的資料集。這可能會導致資料遺失。

  • 重新建立

    按一下 ...,然後按一下 Recreate tables (重新建立資料表),以從來源重新建立所有工作或選取工作的資料集。

    資訊備註若個別表格發生問題,建議先嘗試載入表格,而非重新建立。重新建立表格可能會造成歷史資料損失。若有重大變更,您也必須準備取用重建資料任務的下游資料任務,以載入資料。

執行資料工作

您可以起始專案中所有資料工作或選取工作的執行,而不是個別執行工作。例如,您可以執行所有具有時間型排程的工作。這將起始具有事件型排程的下游工作。

  • 執行

    按一下 Run (執行) 以起始所有工作或選取工作的執行。這會起始所有選取工作的執行,並在它們開始執行後立即完成。

    您可以從所有準備好執行的工作中進行選取。具有時間型排程的工作和使用 CDC 的工作會預先選取。具有事件型排程的工作不會預先選取,因為它們將在有資料要處理時執行。

    在以 Qlik Cloud 作為資料平台的專案中,所有登陸和儲存工作都會預先選取。

    資訊備註所有資料工作都會平行執行。這表示相依性檢查可能會阻止某些工作執行。
  • 停止

    按一下 Stop (停止) 以停止所有工作或選取的工作。

    您可以從正在執行的工作中進行選取。

刪除資料工作

  • 按一下「刪除」以刪除專案中的所有資料工作或選取的工作。

無法刪除正在執行的工作,或被其他工作使用的工作。

變更專案的檢視

專案有兩種不同的檢視。您可以按一下 Pipeline view (管道檢視) 在檢視之間切換。

  • 管道檢視會顯示資料工作的資料流程。

    您可以按一下 Layers (圖層),選擇要為資料工作顯示多少資訊。開啟或關閉下列資訊:

    • Status (狀態)

    • Data freshness (資料時效性)

    • Schedule (排程)

    • Cross-project output (跨專案輸出)

      這將顯示其他專案中使用此專案中工作的工作。目前專案外部的所有工作都會顯示為灰色。

  • 卡片檢視會顯示包含資料工作相關資訊的卡片檢視。

    您可以篩選資產類型和擁有者。

刪除專案

  • Pipeline projects (管道專案) 檢視中,按一下專案上的 更多,然後選取 Delete (刪除)。

您可以選取保留每個個別工作所建立的成品 (資料表和檢視),但下列一律保留成品的類型除外:

  • 登陸工作

  • 湖泊登陸工作

  • 複寫工作

資訊備註請記住,您保留的成品將不再由工作更新。

檢視資料

您可以在設計資料管道時檢視資料樣本,以查看並驗證資料的形狀。

需要下列權限:

  • 管理 中的租用戶層級啟用了檢視資料。

    啟用 Settings (設定) > Feature control (功能控制) > Viewing data in 資料整合 (在 資料整合 中檢視資料)。

  • 您在連線所在的空間中被指派了 Can view data (可檢視資料) 角色。

  • 您在專案所在的空間中被指派了 Can view (可檢視) 角色。

若要在資料管道檢視中檢視樣本資料:

  1. 按一下管道檢視底部預覽橫幅中的 向上

  2. 選取要預覽其資料的資料工作。

會顯示資料的樣本。您可以使用 Number of rows (列數) 設定樣本中要包含的資料列數。

匯出和匯入專案

您可以將專案匯出至包含重建專案所需一切內容的 JSON 檔案。匯出的 JSON 檔案可以匯入至相同的租用戶,或另一個租用戶。例如,您可以使用此功能將專案從一個租用戶移至另一個租用戶,或製作專案的備份複本。

如需詳細資訊,請參閱 匯出並匯入資料管道

變更專案的擁有者

資料工作會在其所屬專案擁有者的內容中運作。您可以變更專案的擁有者,將資料專案中所有工作的控制權轉移給另一位使用者。例如,如果有些專案是由已刪除的使用者所擁有,這將非常有用。

資訊備註變更專案的擁有者需要租用戶管理員或資料管理員角色。如需有關所需角色和權限的詳細資訊,請參閱 資料空間角色與權限
  • 在專案檢視中,按一下 ...,然後按一下 Change owner (變更擁有者)。

擁有權變更將套用至專案中的所有工作。由專案中工作建立的所有已編目資料集也將變更擁有者。

變更資料平台連線

如果您變更專案的 Data platform (資料平台) 連線,您必須:

  1. 重新建立所有登陸工作中的資料表。

  2. 準備專案中的所有其他工作。

檢視專案資訊

按一下功能表列上的 資訊 以檢視專案資訊,例如:

  • 擁有者

  • 空間

  • 資料平台

  • 專案 ID

專案設定

您可以設定專案和所有包含的資料工作通用的屬性。

  • 按一下 Settings (設定)。

如需詳細資訊,請參閱 資料管道專案設定

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!