Samouczek — Przepływ danych dla początkujących

W tym samouczku przedstawiono podstawowe zastosowanie przygotowania danych, aby lepiej zapoznać użytkownika z różnymi krokami wymaganymi do zbudowania przepływu danych i dostępnymi możliwościami. Dzięki załączonemu pakietowi zawierającemu kilka zestawów danych będziesz w stanie odtworzyć wszystkie kroki tego samouczka.

W tym przykładzie skupimy się na próbce danych sprzedażowych z klientami z całego świata oraz informacjami o ich imionach i nazwiskach, datach i statusie zamówień, kraju pochodzenia, stanach, adresach, numerach telefonów itp. Załóżmy, że chcesz przygotować dane tak, aby skupiały się na klientach ze Stanów Zjednoczonych. Wyodrębnisz wszystkie dane dotyczące klientów z USA, dodasz brakujące informacje o stanach pochodzenia, dokonasz drobnej zmiany formatowania i wyeksportujesz dane do nowego pliku, który będzie można wykorzystać jako źródło danych np. dla aplikacji analitycznej.

Wymagania wstępne

Pobierz ten pakiet i rozpakuj go na pulpicie:

Przepływ danych — samouczek dla początkujących

Pakiet zawiera następujące pliki danych, które są potrzebne do ukończenia samouczka:

sales_data_sample.xlsx
states.xlsx

Dodawanie plików źródłowych do katalogu

Przed rozpoczęciem tworzenia przepływu danych dwa pliki z pakietu muszą być dostępne na platformie analitycznej. Aby dodać źródło danych do katalogu:

Z menu Launcher wybierz Analytics > Katalog.
Kliknij przycisk Utwórz nowy w prawym górnym rogu i wybierz polecenie Zestaw danych.
W oknie, które zostanie następnie wyświetlone, kliknij przycisk Prześlij plik danych.
Przeciągnij i upuść pliki samouczka z pulpitu na dedykowany obszar okna Dodaj plik lub kliknij Przeglądaj, aby wybrać je z ich lokalizacji.
Kliknij przycisk Załaduj.

Tworzenie przepływu danych i dodawanie źródła danych

Po ustawieniu elementów można rozpocząć tworzenie przepływu danych, zaczynając od źródła.

Z menu Launcher wybierz kolejno Analytics > Przygotowanie danych.
Kliknij kafelek Przepływ danych lub kliknij Utwórz nowy > Przepływ danych.
W oknie Utwórz nowy przepływ danych ustaw informacje o przepływie danych w następujący sposób i kliknij przycisk Utwórz:
- Data flow tutorial jako Nazwa.
- Prywatna jako Przestrzeń.
- Data flow to prepare sales data focused on US customers (Przepływ danych w celu przygotowania danych sprzedażowych skoncentrowanych na klientach z USA) jako Opis.
- Tutorial (Samouczek) jako Znacznik.
Otworzy się pusty przepływ danych.
Kliknij przycisk Przeglądaj katalog na pustej kanwie, aby rozpocząć przeglądanie zestawów danych dodanych do katalogu.
Użyj filtrowanego wyszukiwania, aby znaleźć wcześniej przesłane zestawy danych sales_data_sample.xlsx oraz states.xlsx i zaznacz pola wyboru przed ich nazwami.
Kliknij przycisk Dalej.
Przejrzyj zestawy danych i ich pola w podsumowaniu, a następnie kliknij przycisk Załaduj do przepływu danych.

Oba źródłowe zestawy danych są dodawane do kanwy i można rozpocząć przygotowywanie danych za pomocą procesorów. sales_data_sample.xlsx jest głównym zestawem danych, z którym będziesz pracować, podczas gdy states.xlsx będzie używany jako dane dodatkowe.

Filtrowanie danych klientów z USA

Teraz można rozpocząć przygotowanie danych z kolejnymi zmianami za pomocą procesorów. Pierwszym krokiem jest ograniczenie zakresu zestawu danych i skupienie się wyłącznie na klientach z USA. Aby to zrobić, użyj procesora Filter (Filtr), aby wybrać tylko wiersze, które mają wartość USA w polu COUNTRY (Kraj).

Kliknij menu akcji () źródła sales_data_sample na kanwie.
Z otwartego menu wybierz Dodaj procesor > Filter.

Procesor Filter (Filtr) zostanie umieszczony na płótnie i automatycznie połączony ze źródłem.

InformacjaMożna też ręcznie przeciągnąć i upuścić procesory z lewego panelu Procesory i ręcznie połączyć węzły.
Jeśli nie jest jeszcze otwarty, kliknij Właściwości w prawym górnym rogu obszaru roboczego, aby otworzyć panel właściwości procesora, w którym można skonfigurować procesory i wyświetlić podgląd danych oraz skrypt.
W panelu właściwości kliknij ikonę Edytuj () obok nazwy procesora, aby nadać procesorowi bardziej znaczącą nazwę, taką jak US filter (Filtr USA), oraz krótki opis, na przykład Filter on US customers (Filtrowanie klientów z USA).
Z listy rozwijanej Pole do przetworzenia wybierz COUNTRY (Kraj).
Z listy rozwijanej Operator wybierz =.
W polu Użyj z wybierz Wartość i wprowadź USA.
Z listy Wybierz wiersze, które pasują wybierz opcję Wszystkie filtry.

Parametry te są bardziej przydatne w przypadku łączenia więcej niż jednego filtru.
Kliknij przycisk Zastosuj.

Konfiguracja procesora jest prawidłowa, ale nadal wyświetlany jest komunikat Brak połączenia, ponieważ procesor nie ma jeszcze przepływu wyjściowego.
Kliknij Podgląd danych w dolnym panelu.

Patrząc na podgląd, można zauważyć, że tylko wiersze z USA jako krajem zostały zachowane na tym etapie i będą propagowane w przepływie wyjściowym. Przepływ danych do tej pory powinien wyglądać następująco:

Dodawanie nazw stanów z innego zestawu danych

W przypadku pozostałych klientów z USA pole STATE zawiera stan pochodzenia, ale jako dwuliterowy kod. Chcesz, aby te informacje były czytelniejsze, najlepiej z pełną nazwą stanu.

Zestaw danych states.xlsx, który został wcześniej zaimportowany jako źródło, zawiera odniesienie do wszystkich stanów USA z dwuliterowymi kodami, a także odpowiadającymi im pełnymi nazwami. Wykonasz połączenie między tymi dwoma zbiorami danych, aby pobrać nazwy stanów i uzupełnić główny przepływ.

Referencyjny zestaw danych z nazwami stanów

Dwa zestawy danych muszą mieć co najmniej jedno wspólne pole, aby kwalifikować się do połączenia.

Aby wykonać połączenie:

Kliknij menu działań () procesora Filter (Filtruj) i wybierz Dodaj procesor do pasującej gałęzi > Połącz.
Zmień nazwę procesora na Full state names (Pełne nazwy stanów) za pomocą ikony Edytuj () w panelu właściwości.
Połącz źródło states z dolnym punktem kotwiczenia procesora Join (Połącz). Aby utworzyć łącze, kliknij kropkę po prawej stronie węzła źródłowego oraz przytrzymaj i przeciągnij łącze do kropki po lewej stronie węzła procesora.
Z listy rozwijanej Typ połączenia wybierz Lewe połączenie zewnętrzne.
Z listy rozwijanej Lewy klucz wybierz pole STATE (STAN).
Z listy rozwijanej Prawy klucz wybierz pole Abbreviation (Skrót).

Dwie wybrane kolumny zawierają wspólne informacje i umożliwiają połączenie między dwoma przepływami wejściowymi. W przypadku lewego połączenia zewnętrznego tylko dodatkowe pola z drugiego zestawu danych są dodawane do głównego przepływu.
Kliknij przycisk Zastosuj.

Nowe pole State (Stan) zostało dodane na końcu zestawu danych, z pełną nazwą stanu dla każdego klienta.

Zmiana nazw i przenoszenie pól

Obecnie występuje kilka problemów z nazewnictwem i formatowaniem kolumn. STATE i State są zbyt podobne i mylące, a oba pola są zbyt daleko od siebie. W celu poprawy spójności danych możesz użyć procesora Select fields (Wybierz pola) do reorganizacji i zmiany nazw pól.

Kliknij menu działań () procesora Join (Połącz) i wybierz Dodaj procesor > Select fields.
Połącz procesor Join (Połącz) z procesorem Select fields (Wybierz pola).
Zmień nazwę procesora na Reorganize states fields (Reorganizacja nazw pól stanów) za pomocą ikony Edytuj () w panelu właściwości.
Kliknij pole wyboru Wybierz wszystko, aby zachować wszystkie pola w przepływie.
Wskaż kursorem myszy pola, których nazwy chcesz zmienić, a następnie kliknij ikonę Edytuj, aby edytować nazwy dwóch pól następująco:
- STATE jako STATECODE
- State jako STATENAME
Użyj ikony =, aby przeciągnąć i upuścić nową kolumnę STATENAME obok STATECODE.
Kliknij przycisk Zastosuj.

Pola zostały zreorganizowane, a przepływ danych wygląda następująco:

Zmiana wielkości liter nazwisk klientów na wielkie

Aby wyróżnić nazwiska klientów i ułatwić ich odróżnienie od imion, użyjesz prostej funkcji formatowania procesora Strings (Ciągi), aby zmienić wielkość liter nazwisk na wielkie.

Kliknij menu działań () procesora Select fields (Wybierz pola) i wybierz Dodaj procesor > Strings.
Połącz procesor Select fields (Wybierz pola) z procesorem Strings (Ciągi).
Zmień nazwę procesora na Upper case (Wielkie litery) za pomocą ikony Edytuj () w panelu właściwości.
Z listy rozwijanej Nazwa funkcji wybierz opcję Zmień na wielkie litery.
Z listy rozwijanej Pola do przetworzenia wybierz CONTACTLASTNAME.
Kliknij przycisk Zastosuj.

Dodawanie celu i uruchamianie przepływu danych

Główne etapy przygotowania zostały zakończone i można teraz sfinalizować przepływ danych, konfigurując sposób eksportowania danych wynikowych. W tym scenariuszu przygotowane dane zostaną wyeksportowane jako plik .qvd przechowywany bezpośrednio w katalogu, dzięki czemu można go później wygodnie wykorzystać na przykład w aplikacji analitycznej.

Kliknij menu działań () procesora Strings (Ciągi) i wybierz Dodaj miejsce docelowe > Pliki danych.
Połącz procesor Strings (Ciągi) z Miejscem docelowym plików danych.
Zmień nazwę procesora na QVD target (Miejsce docelowe QVD) za pomocą ikony Edytuj () w panelu właściwości.
Z listy rozwijanej Przestrzeń wybierz opcję Prywatna.
W polu Nazwa pliku wpisz tutorial_output.
Z listy rozwijanej Rozszerzenie wybierz .qvd.
Kliknij przycisk Zastosuj.

Przepływ danych jest teraz kompletny i prawidłowy, o czym świadczy status na pasku nagłówka oraz zielone znaczniki pod każdym źródłem, procesorem i węzłem docelowym.
Kliknij przycisk Uruchom przepływ w prawym górnym rogu okna.

Otworzy się okno dialogowe pokazujące postęp uruchamiania.

Po pewnym czasie okno zostanie zamknięte i pojawi się powiadomienie informujące, czy uruchomienie się powiodło. Dane wyjściowe przepływu danych można teraz znaleźć w katalogu lub w sekcji Dane wyjściowe w panelu Przegląd przepływu danych.

Co dalej

Umiesz już importować dane źródłowe do katalogu, budować prosty przepływ danych w celu filtrowania i ulepszania danych oraz eksportować wynik przygotowań jako gotowy do użycia plik.

Aby poznać różne sposoby wykorzystania przepływu danych we własnych zastosowaniach, można zapoznać się z pełną listą Procesory przepływu danych i oferowanych przez nie funkcji.

Aby się dowiedzieć, jak korzystać z przygotowanych danych w aplikacjach analitycznych, zobacz Tworzenie analiz i wizualizacja danych.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię