建置資料流程
影片摘要
建立資料流程
首先建立一個新的資料流程。
-
從啟動器功能表中選擇分析 > 建立,或選擇分析 > 準備資料。
-
按一下資料流程。
將開啟建立新資料流程對話方塊。
-
在對應的欄位中,輸入資料流程的名稱。
-
從對應的下拉式清單中,選取要在哪個空間儲存資料流程。
-
新增描述以記錄資料流程的用途。
-
將一些標記新增至資料流程,使其更容易找到。
-
(可選) 選取開啟資料流程核取方塊,以在其建立後直接檢視資料流程。
-
按一下建立。
空的資料流程將會開啟,您將進入導覽標頭的概述索引標簽。之後也可以在 Qlik Cloud 的分析 > 首頁中找到新的資料流程。
若要深入瞭解資料流程概述中所含的資訊,請參閱 導覽資料流程。
若要開始設計資料流程,請前往導覽標頭的編輯器索引標籤。
選取來源
資料流程的第一個建置組塊是包含要準備之資料的來源。您可以使用目錄或連線中的任何資料。
從資料集新增資料
目錄中儲存的資料集可以基於資料庫和資料倉庫中的檔案 (.qvd、.xls、.csv、.parquet、.json 等) 或表格。
如需支援的格式清單,請參閱檔案格式。
若要選擇資料集作為資料流程的來源:
-
從左側面板的來源索引標籤中,將資料集 來源拖放到畫布上。
將開啟資料目錄視窗,您可以在其中瀏覽先前上傳的資料集,或按一下上傳資料檔案以瀏覽電腦上的檔案並即時上傳這些檔案。
警告備註上傳超過 300 MB 的大檔案時,該過程可能需要一些時間。請勿關閉視窗,進度環中將顯示進度 (這個進度環一開始看起來可能是空的)。 -
使用搜尋和篩選器,選取清單中一個或多個資料集前面的核取方塊,然後按一下下一步。
-
您可在摘要索引標籤中查看已選的資料集、檢查這些資料集包含的欄位,並根據需要排除某些資料集。按一下載入到資料流程。
會將一個或多個來源新增到畫布中,並發出警告,提示您需要將其連線到其他節點。
將來源放置在畫布上後,可以按一下該來源並存取屬性面板,以根據需要編輯所選欄位 (例如,如果來源的架構已更新)。
上傳並設定 csv 檔案
如果您使用 CSV 檔案資料集作為來源 (無論是先前已上傳至目錄還是在此過程中直接上傳),且資料在預覽中無法正確顯示,則可能表示檔案格式不正確。
例如,使用逗號作為分隔符號的這些客戶資料顯示在單一欄中。
這是由於檔案格式錯誤,或上傳過程中未正確偵測到分隔符號。要解決此問題,您需要前往資料集設定。
-
從啟動器功能表中選取分析 > 目錄。
-
開啟要修正的資料集。
資料集概述中將顯示一條警告,指出存在潛在的格式錯誤。
-
按一下警告訊息中指向檔案格式設定的連結,或使用概述右上角的更多動作功能表。
您可以看到分隔符號被錯誤地設定為分號。
-
從分隔符號下拉式清單中,選擇逗號。
使用預期的分隔符號後,預覽中現在可以正確顯示不同的欄位。
-
按一下儲存。
-
返回資料流程,如果畫布不為空,則刪除過時的來源,然後再次新增。此時,來源將反映正確的資料集設定。
從連線新增資料
Qlik Cloud 和資料流程支援各種資料來源連線。如需詳細資訊,請參閱支援的資料來源清單。
目前僅不支援下列連線類型:
若要選擇連線作為資料流程的來源:
-
從左側面板的來源索引標籤中,將連線 來源拖放到畫布上。
將開啟選取連線視窗,您可以在其中瀏覽先前建立的連線,或按一下建立連線,以在驗證後即時定義新連線。
-
使用搜尋和篩選器,選取清單中連線前面的核取方塊,然後按一下下一步。
-
依據不同連線類型,您將能夠瀏覽檔案、輸入資料路徑或從資料庫中選擇表格。
-
選取來源資料後,按一下儲存或完成。
會將該來源新增到畫布中,並發出警告,提示您需要將其連線到另一節點。
將來源放置在畫布上後,可以按一下該來源並存取屬性面板,以根據需要編輯所選欄位 (例如,如果來源的架構已更新)。
新增處理器
處理器是包含資料流程中提供的不同準備功能的建置組塊。處理器接收傳入的資料,並將準備好的資料傳回流程的下一步。處理器可讓您透過即時預覽對各種資料執行複雜的擷取、改進和清理操作。有關可用功能的更多資訊,請參閱完整的 資料流程處理器。
若要將第一個處理器連線到您的資料來源:
-
您可以:
-
從左側面板的處理器索引標籤中,將您選擇的處理器拖放到來源旁邊的畫布上。
您需要手動連線來源和處理器。按一下來源節點右側的點,按住連結並將其拖曳到處理器節點左側的點,從而建立連結。
-
按一下來源的動作功能表,選取新增處理器,然後按一下您選擇的處理器。
處理器將置於畫布上,並自動連線到來源。
-
-
按一下處理器以開始在右側面板中對其進行設定。
可用的不同功能以及要設定的參數取決於每個處理器。如需詳細資訊,請參閱個別處理器文件。
-
按一下儲存。
-
根據需要新增並連線任意數量的處理器來準備資料。
啟用預覽 面板中的資料預覽切換開關,以查看處理器對資料樣本的影響。按一下齒輪圖示以開啟預覽設定,並將樣本大小設定為最多 10000 列。此時,您也可以啟用指令碼切換開關以查看與資料流程等效的 Qlik 指令碼。
選取目標
要結束資料流程,您需要將最後一個處理器連線到目標節點。您可以在兩種目標類型之間進行選擇:
-
資料檔案,用於儲存在 Qlik Cloud 目錄中的檔案。
-
連線,用於寫入作為連線新增至 Qlik Cloud 中的外部來源。
這兩個選項都允許您將準備好的資料匯出為 .qvd、.parquet、.txt 或 .csv 檔案。
若要將目標連線到流程的其餘部分:
-
您可以:
-
從左側面板的目標索引標籤中,將您選擇的目標類型拖放到最後一個處理器旁邊的畫布上。
按照先前連線處理器的方式,將最後一個處理器手動連線到目標。
-
按一下最後一個處理器的動作功能表,選取新增目標,然後按一下您所需的目標。
-
-
按一下目標以開始在右側面板中對其進行設定。
資訊備註對於資料檔案,您可以寫入所需空間的特定資料夾中。如果您在個人空間中建立了一個名為 folder_name 的資料夾,請使用 folder_name/data_flow_output.qvd 作為目標的檔案名稱。產生的檔案將直接傳送到您的資料夾。 -
按一下儲存。
在擁有至少一個來源、一個目標和一個處理器 (可選) 後,即可執行資料流程了。
執行資料流程
當資料流程的所有節點都已連線、設定並標示為 OK 後,會出現一個綠色核取標記,表示資料流程被視為有效且可以執行。此時,可以使用畫布右上角的預覽指令碼按鈕來查看將在幕後產生的完整指令碼。
-
按一下執行流程以開始處理資料。
將開啟一條通知,顯示執行的狀態。
-
當流程成功完成後,可以根據目標在不同位置找到輸出的已準備資料:
-
在您其他資產的目錄中,以及在資料檔案之資料流程概述的輸出區段中
-
在基於連線的資料集之資料流程概述的輸出區段中。
-
現在,您可以使用此準備好的資料作為乾淨的來源來為 AutoML 實驗提供資料,或將其用於視覺化應用程式。