Samouczek — Przepływ danych dla początkujących
W tym samouczku przedstawiono podstawowe zastosowanie przygotowania danych, aby lepiej zapoznać użytkownika z różnymi krokami wymaganymi do zbudowania przepływu danych i dostępnymi możliwościami. Dzięki załączonemu pakietowi zawierającemu kilka zestawów danych będziesz w stanie odtworzyć wszystkie kroki tego samouczka.
W tym przykładzie skupimy się na próbce danych sprzedażowych z klientami z całego świata oraz informacjami o ich imionach i nazwiskach, datach i statusie zamówień, kraju pochodzenia, stanach, adresach, numerach telefonów itp. Załóżmy, że chcesz przygotować dane tak, aby skupiały się na klientach ze Stanów Zjednoczonych. Wyodrębnisz wszystkie dane dotyczące klientów z USA, dodasz brakujące informacje o stanach pochodzenia, dokonasz drobnej zmiany formatowania i wyeksportujesz dane do nowego pliku, który będzie można wykorzystać jako źródło danych np. dla aplikacji analitycznej.
Wymagania wstępne
Pobierz ten pakiet i rozpakuj go na pulpicie:
Przepływ danych — samouczek dla początkujących
Pakiet zawiera następujące pliki danych, które są potrzebne do ukończenia samouczka:
-
sales_data_sample.xlsx
-
states.xlsx
Dodawanie plików źródłowych do katalogu
Przed rozpoczęciem tworzenia przepływu danych dwa pliki z pakietu muszą być dostępne na platformie analitycznej. Aby dodać źródło danych do katalogu:
-
Z menu Launcher wybierz Analytics > Katalog.
-
Kliknij przycisk Utwórz nowy w prawym górnym rogu i wybierz polecenie Zestaw danych.
-
W oknie, które zostanie następnie wyświetlone, kliknij przycisk Prześlij plik danych.
-
Przeciągnij i upuść pliki samouczka z pulpitu na dedykowany obszar okna Dodaj plik lub kliknij Przeglądaj, aby wybrać je z ich lokalizacji.
-
Kliknij przycisk Załaduj.
Tworzenie przepływu danych i dodawanie źródła danych
Po ustawieniu elementów można rozpocząć tworzenie przepływu danych, zaczynając od źródła.
-
Z menu Launcher wybierz kolejno Analytics > Przygotowanie danych.
-
Kliknij kafelek Przepływ danych lub kliknij Utwórz nowy > Przepływ danych.
-
W oknie Utwórz nowy przepływ danych ustaw informacje o przepływie danych w następujący sposób i kliknij przycisk Utwórz:
-
Data flow tutorial jako Nazwa.
-
Prywatna jako Przestrzeń.
-
Data flow to prepare sales data focused on US customers (Przepływ danych w celu przygotowania danych sprzedażowych skoncentrowanych na klientach z USA) jako Opis.
-
Tutorial (Samouczek) jako Znacznik.
Otworzy się pusty przepływ danych.
-
-
Kliknij przycisk Przeglądaj katalog na pustej kanwie, aby rozpocząć przeglądanie zestawów danych dodanych do katalogu.
-
Użyj filtrowanego wyszukiwania, aby znaleźć wcześniej przesłane zestawy danych sales_data_sample.xlsx oraz states.xlsx i zaznacz pola wyboru przed ich nazwami.
-
Kliknij przycisk Dalej.
-
Przejrzyj zestawy danych i ich pola w podsumowaniu, a następnie kliknij przycisk Załaduj do przepływu danych.
Oba źródłowe zestawy danych są dodawane do kanwy i można rozpocząć przygotowywanie danych za pomocą procesorów. sales_data_sample.xlsx jest głównym zestawem danych, z którym będziesz pracować, podczas gdy states.xlsx będzie używany jako dane dodatkowe.
Filtrowanie danych klientów z USA
Teraz można rozpocząć przygotowanie danych z kolejnymi zmianami za pomocą procesorów. Pierwszym krokiem jest ograniczenie zakresu zestawu danych i skupienie się wyłącznie na klientach z USA. Aby to zrobić, użyj procesora Filter (Filtr), aby wybrać tylko wiersze, które mają wartość USA w polu COUNTRY (Kraj).
-
Kliknij menu akcji (
) źródła sales_data_sample na kanwie.
-
Z otwartego menu wybierz Dodaj procesor > Filter.
Procesor Filter (Filtr) zostanie umieszczony na płótnie i automatycznie połączony ze źródłem.
InformacjaMożna też ręcznie przeciągnąć i upuścić procesory z lewego panelu Procesory i ręcznie połączyć węzły. -
Jeśli nie jest jeszcze otwarty, kliknij Właściwości w prawym górnym rogu obszaru roboczego, aby otworzyć panel właściwości procesora, w którym można skonfigurować procesory i wyświetlić podgląd danych oraz skrypt.
-
W panelu właściwości kliknij ikonę Edytuj (
) obok nazwy procesora, aby nadać procesorowi bardziej znaczącą nazwę, taką jak US filter (Filtr USA), oraz krótki opis, na przykład Filter on US customers (Filtrowanie klientów z USA).
-
Z listy rozwijanej Pole do przetworzenia wybierz COUNTRY (Kraj).
-
Z listy rozwijanej Operator wybierz =.
-
W polu Użyj z wybierz Wartość i wprowadź USA.
-
Z listy Wybierz wiersze, które pasują wybierz opcję Wszystkie filtry.
Parametry te są bardziej przydatne w przypadku łączenia więcej niż jednego filtru.
-
Kliknij przycisk Zastosuj.
Konfiguracja procesora jest prawidłowa, ale nadal wyświetlany jest komunikat Brak połączenia, ponieważ procesor nie ma jeszcze przepływu wyjściowego.
-
Kliknij Podgląd danych w dolnym panelu.
Patrząc na podgląd, można zauważyć, że tylko wiersze z USA jako krajem zostały zachowane na tym etapie i będą propagowane w przepływie wyjściowym. Przepływ danych do tej pory powinien wyglądać następująco:
Dodawanie nazw stanów z innego zestawu danych
W przypadku pozostałych klientów z USA pole STATE zawiera stan pochodzenia, ale jako dwuliterowy kod. Chcesz, aby te informacje były czytelniejsze, najlepiej z pełną nazwą stanu.
Zestaw danych states.xlsx, który został wcześniej zaimportowany jako źródło, zawiera odniesienie do wszystkich stanów USA z dwuliterowymi kodami, a także odpowiadającymi im pełnymi nazwami. Wykonasz połączenie między tymi dwoma zbiorami danych, aby pobrać nazwy stanów i uzupełnić główny przepływ.
Aby wykonać połączenie:
-
Kliknij menu działań (
) procesora Filter (Filtruj) i wybierz Dodaj procesor do pasującej gałęzi > Połącz.
-
Zmień nazwę procesora na Full state names (Pełne nazwy stanów) za pomocą ikony Edytuj (
) w panelu właściwości.
-
Połącz źródło states z dolnym punktem kotwiczenia procesora Join (Połącz). Aby utworzyć łącze, kliknij kropkę po prawej stronie węzła źródłowego oraz przytrzymaj i przeciągnij łącze do kropki po lewej stronie węzła procesora.
-
Z listy rozwijanej Typ połączenia wybierz Lewe połączenie zewnętrzne.
-
Z listy rozwijanej Lewy klucz wybierz pole STATE (STAN).
-
Z listy rozwijanej Prawy klucz wybierz pole Abbreviation (Skrót).
Dwie wybrane kolumny zawierają wspólne informacje i umożliwiają połączenie między dwoma przepływami wejściowymi. W przypadku lewego połączenia zewnętrznego tylko dodatkowe pola z drugiego zestawu danych są dodawane do głównego przepływu.
-
Kliknij przycisk Zastosuj.
Nowe pole State (Stan) zostało dodane na końcu zestawu danych, z pełną nazwą stanu dla każdego klienta.
Zmiana nazw i przenoszenie pól
Obecnie występuje kilka problemów z nazewnictwem i formatowaniem kolumn. STATE i State są zbyt podobne i mylące, a oba pola są zbyt daleko od siebie. W celu poprawy spójności danych możesz użyć procesora Select fields (Wybierz pola) do reorganizacji i zmiany nazw pól.
-
Kliknij menu działań (
) procesora Join (Połącz) i wybierz Dodaj procesor > Select fields.
-
Połącz procesor Join (Połącz) z procesorem Select fields (Wybierz pola).
-
Zmień nazwę procesora na Rename states fields (Zmiana nazw pól stanów) za pomocą ikony Edytuj (
) w panelu właściwości.
-
Wskaż kursorem myszy pola, których nazwy chcesz zmienić, a następnie kliknij ikonę
Edytuj, aby edytować nazwy dwóch pól następująco:
-
STATE jako STATECODE
-
State jako STATENAME
-
-
Użyj ikony =, aby przeciągnąć i upuścić nową kolumnę STATENAME obok STATECODE.
-
Kliknij przycisk Zastosuj.
Pola zostały zreorganizowane, a przepływ danych wygląda następująco:
Zmiana wielkości liter nazwisk klientów na wielkie
Aby wyróżnić nazwiska klientów i ułatwić ich odróżnienie od imion, użyjesz prostej funkcji formatowania procesora Strings (Ciągi), aby zmienić wielkość liter nazwisk na wielkie.
-
Kliknij menu działań (
) procesora Select fields (Wybierz pola) i wybierz Dodaj procesor > Strings.
-
Połącz procesor Select fields (Wybierz pola) z procesorem Strings (Ciągi).
-
Zmień nazwę procesora na Upper case (Wielkie litery) za pomocą ikony Edytuj (
) w panelu właściwości.
-
Z listy rozwijanej Nazwa funkcji wybierz opcję Zmień na wielkie litery.
-
Z listy rozwijanej Pola do przetworzenia wybierz CONTACTLASTNAME.
-
Kliknij przycisk Zastosuj.
Dodawanie celu i uruchamianie przepływu danych
Główne etapy przygotowania zostały zakończone i można teraz sfinalizować przepływ danych, konfigurując sposób eksportowania danych wynikowych. W tym przykładzie przygotowane dane zostaną wyeksportowane jako plik .qvd przechowywany bezpośrednio w katalogu, dzięki czemu można go później wygodnie wykorzystać na przykład w aplikacji analitycznej.
-
Kliknij menu działań (
) procesora Strings (Ciągi) i wybierz Dodaj miejsce docelowe > Pliki danych.
-
Połącz procesor Strings (Ciągi) z Miejscem docelowym plików danych.
-
Zmień nazwę procesora na QVD target (Miejsce docelowe QVD) za pomocą ikony Edytuj (
) w panelu właściwości.
-
Z listy rozwijanej Przestrzeń wybierz opcję Prywatna.
-
W polu Nazwa pliku wpisz tutorial_output.
-
Z listy rozwijanej Rozszerzenie wybierz .qvd.
-
Kliknij przycisk Zastosuj.
Przepływ danych jest teraz kompletny i prawidłowy, o czym świadczy status na pasku nagłówka oraz zielone znaczniki pod każdym źródłem, procesorem i węzłem docelowym.
-
Kliknij przycisk Uruchom przepływ w prawym górnym rogu okna.
Otworzy się okno dialogowe pokazujące postęp uruchamiania.
Po pewnym czasie okno zostanie zamknięte i pojawi się powiadomienie informujące, czy uruchomienie się powiodło. Dane wyjściowe przepływu danych można teraz znaleźć w katalogu lub w sekcji Dane wyjściowe w panelu Przegląd przepływu danych.
Co dalej
Umiesz już importować dane źródłowe do katalogu, budować prosty przepływ danych w celu filtrowania i ulepszania danych oraz eksportować wynik przygotowań jako gotowy do użycia plik.
Aby poznać różne sposoby wykorzystania przepływu danych we własnych zastosowaniach, można zapoznać się z pełną listą Procesory przepływu danych i oferowanych przez nie funkcji.
Aby się dowiedzieć, jak korzystać z przygotowanych danych w aplikacjach analitycznych, zobacz Tworzenie analiz i wizualizacja danych.