教學課程 - Data Flow for Beginners
本教學課程將介紹一個基本的資料準備使用案例,讓您更加熟悉建立資料流程所需的不同步驟以及所提供的不同可能性。使用包含幾個資料集的附加套件,即可重現本教程的所有步驟。
此場景將重點關注來自世界各地之客戶的銷售資料樣本,以及有關客戶姓名、訂單日期和狀態、來源國家/地區、州、地址、電話號碼等的資訊。假設您想要準備資料,使其著重於來自美國的客戶。您將分離出美國客戶的所有資料,新增有關來源州的缺失資訊,進行較小的格式變更,並將資料匯出到一個新檔案,該檔案可用作分析應用程式的來源。
必要條件
在桌面下載此套件並解壓縮:
套件包含完成本教學課程所需要的以下資料檔案:
-
sales_data_sample.xlsx
-
states.xlsx
將來源檔案新增到目錄中
在開始建立資料流程之前,套件中的兩個檔案需要在分析平台中可用。若要將來源資料新增至您的目錄:
-
從啟動器功能表中選取分析 > 目錄。
-
按一下右上角的新建按鈕並選取資料集。
-
在開啟的視窗中,按一下上傳資料檔案。
-
將教學課程檔案從桌面拖放到新增檔案視窗的專用區域,或按一下瀏覽從其位置選擇教學課程檔案。
-
按一下上傳。
建立資料流程並新增來源
現在各個部分都已設定完畢,您可以開始建立資料流程,從來源開始。
-
從啟動器功能表中選取分析 > 準備資料。
-
按一下資料流程圖格,或按一下新建 > 資料流程。
-
在建立新資料流程視窗中,按如下方式設定資料流程的資訊,然後按一下建立:
-
Name 設定為 Data flow tutorial。
-
Space 設定為 Personal。
-
Description 設定為 Data flow to prepare sales data focused on US customers
-
Tag 設定為 Tutorial。
您的空資料流程將會開啟。
-
-
按一下空白畫布上的瀏覽目錄以開始查看已新增至目錄中的資料集。
-
使用篩選搜尋來尋找之前上傳的 sales_data_sample.xlsx 和 states.xlsx 資料集並選取其名稱前的核取方塊。
-
按一下下一步。
-
在摘要中查看資料集及其欄位,然後按一下載入至資料流程。
兩個來源資料集都會新增到畫布中,現在可以開始使用處理器準備資料了。sales_data_sample.xlsx 是您將使用的主要資料集,而 states.xlsx 將用作附加資料。
篩選美國客戶的資料
現在,您可以開始準備資料,利用處理器來進行一系列變更。第一步是縮小資料集的範圍並僅關注美國客戶。為此,請使用篩選器處理器僅選擇 COUNTRY 欄位的值為 USA 的列。
-
按一下畫布上 sales_data_sample 來源的動作功能表 (
)。
-
從開啟的功能表中選擇新增處理器 > 篩選器。
篩選器處理器將置於畫布上,且已連線到來源節點。
資訊備註也可以從處理器左側面板手動拖放處理器,並手動連線節點。 -
如果尚未開啟,請按一下畫布右上角的屬性以開啟處理器屬性面板,您可以在其中設定處理器並查看資料預覽和指令碼。
-
在屬性面板中,按一下處理器名稱旁的編輯圖示 (
),為處理器提供一個更有意義的名稱 (例如 US filter) 以及簡短的描述 (例如 Filter on US customers)。
-
從要處理的欄位下拉式清單中,選取 COUNTRY。
-
從運算子下拉式清單中選取 =。
-
在使用搭配欄位中,選取值並輸入 USA。
-
從選取相符的列清單中,選取所有篩選器。
當組合多個篩選器時,這些參數更有用。
-
按一下套用。
處理器設定有效,但仍顯示未連線訊息,因為處理器尚無輸出流程。
-
按一下底部面板中的預覽資料。
查看預覽,您可以看到此階段僅保留國家/地區值為 USA 的列,並將在輸出流程中傳播。到目前為止,您的資料流程應如下所示:
從另一個資料集新增州名稱
對於其餘美國客戶,STATE 欄位包含來源州,但為兩個字母的代碼。如果希望使此資訊更易於閱讀,最好使用州的完整名稱。
您之前作為來源匯入的 states.xlsx 資料集恰好包含美國所有州的參考、兩個字母的代碼以及相應的完整名稱。您將在這兩個資料集之間執行聯結,以擷取州名稱並補充您的主要流程。
若要執行聯結:
-
按一下篩選器處理器的動作功能表 (
),然後選取將處理器新增至相符的分支 > 聯結。
-
使用屬性面板中的編輯圖示 (
) 將處理器重新命名為 Full state names。
-
將州來源連線到聯結處理器的底部錨點。要建立連結,請按一下來源節點右側的點,按住連結並將其拖曳到處理器節點左下角的點。
-
在聯結類型下拉式清單中,選取左外聯結。
-
在左鍵下拉式清單中,選取 STATE 欄位。
-
在右鍵下拉式清單中,選取 Abbreviation 欄位。
兩個選定的欄包含共同資訊,允許在兩個輸入流程之間建立連結。使用左外聯結,只有第二個資料集中的其他欄位會新增到主要流程中。
-
按一下套用。
資料集末尾新增了一個新欄位 State,其中包含每個客戶的完整州名稱。
重新命名和移動欄位
現在,欄的命名和格式存在一些問題。STATE 和 State 太相似了,容易混淆,而且兩個欄位相距太遠。為了提高欄位的一致性和統一性,您可以使用選取欄位處理器來重新命名和移動欄位。
-
按一下聯結處理器的動作功能表 (
),然後選取新增處理器 > 選取欄位。
-
將聯結處理器連線到選取欄位處理器。
-
使用屬性面板中的編輯圖示 (
) 將處理器重新命名為 Rename states fields。
-
將滑鼠懸停在要重新命名的欄位上,然後按一下
編輯圖示以編輯這兩個欄位名稱,如下所示:
-
STATE 編輯為 STATECODE
-
State 編輯為 STATENAME
-
-
使用 = 圖示將新的 STATENAME 欄拖放到 STATECODE 旁邊。
-
按一下套用。
您已經重新組織了欄位,資料流程看起來如下所示:
將客戶姓名設為大寫
為了醒目提示客戶的姓氏並使得更容易區分姓氏和名字,您將使用字串處理器的簡單格式設定函數將姓氏設為大寫。
-
按一下選取欄位處理器的動作功能表 (
),然後選取新增處理器 > 字串。
-
將選取欄位處理器連線到字串處理器。
-
使用屬性面板中的編輯圖示 (
) 將處理器重新命名為 Upper case。
-
在函數名稱下拉式清單中,選取 Change to upper case。
-
在要處理的欄位下拉式清單中,選取 CONTACTLASTNAME。
-
按一下套用。
新增目標並執行資料流程
主要準備步驟已完成,您現在可以透過設定如何匯出產生的資料來完成資料流程。在這種情況下,您將把準備好的資料匯出為直接儲存在目錄中的 .qvd 檔案,便於之後在分析應用程式中使用。
-
按一下字串處理器的動作功能表 (
),然後選取新增目標 > 資料檔案。
-
將字串處理器連線到資料檔案目標。
-
使用屬性面板中的編輯圖示 (
) 將處理器重新命名為 QVD target。
-
在空間下拉式清單中,選取 Personal。
-
在 File name 欄位中,輸入 tutorial_output。
-
在延伸下拉式清單中,選取 .qvd。
-
按一下套用。
您的資料流程現在已完成且有效,標題列中的狀態以及每個來源、處理器和目標節點下的綠色鉤號均表明了這一點。
-
按一下視窗右上角的執行流程按鈕。
將會開啟一個顯示執行進度的模型。
一段時間後,視窗將關閉,並會開啟一個通知,告知您執行是否成功。現在可以在目錄中或資料流程概述面板的輸出區段中找到資料流程的輸出。
後續步驟
您已經瞭解如何將來源資料匯入到目錄中、建置簡單的資料流程來篩選和改進資料,並將準備結果匯出為可供使用的檔案。
要瞭解將資料流程用於自有使用案例的多種方法,您可以查看 資料流程處理器 的完整清單及其提供的函數。
若要瞭解如何在分析應用程式中使用準備好的資料,請參閱建立分析和視覺化資料。