Dodawanie przepływów transformacji
Do zadań transformacji można dołączać przepływy. Kreator przepływów umożliwia utworzenie przepływu transformacji przy użyciu źródeł, procesorów i celów w celu zdefiniowania złożonych lub prostych transformacji.
Przepływy transformacji i procesory są reprezentacjami logicznymi. Oznacza to, że w zadaniach ELT dla każdego celu tworzona jest tylko jedna tabela, a wszystkie procesory są kompilowane w jedną instrukcję SQL dla każdego celu.
Obsługiwane platformy docelowe
Obsługiwane są następujące platformy z przepływami transformacji:
-
Snowflake
-
Databricks
-
Google BigQuery
-
Azure Synapse Analytics
-
Microsoft Fabric
-
Microsoft SQL Server
-
Amazon Redshift
InformacjaNiedostępne są następujące funkcje Amazon Redshift: generowanie ciągów znaków UUID oraz Odległość edycji.
Wymagania wstępne
Przed utworzeniem przepływu transformacji należy wykonać następujące czynności:
- Wypełnij zadanie pamięci masowej dołączonymi danymi, których chcesz użyć w przepływie transformacji, lub zarejestruj istniejące dane. Więcej informacji o dołączaniu i rejestrowaniu danych zawierają tematy Dołączanie danych i Rejestrowanie danych, które już istnieją na platformie danych.
- Przygotuj i uruchom zadanie pamięci masowej lub transformacji używane jako źródło w przepływie transformacji. Uruchomienie zadania pamięci masowej nie jest obowiązkowe, ale zalecane, ponieważ umożliwia wyświetlanie podglądu danych na każdym etapie przepływu.
Tworzenie przepływu transformacji
Aby utworzyć prawidłowy przepływ transformacji, potrzebny jest co najmniej jeden źródłowy zestaw danych i jeden nazwany cel ze zdefiniowanymi kluczami.
- Otwórz zadanie Przekształć dane w potoku danych.
- W sekcji Przekształcenie wybierz źródłowe zestawy danych, które mają zostać włączone do przepływu transformacji, i kliknij Dodaj przepływ transformacji.
Zostanie wyświetlony komunikat Dodaj przepływ transformacji, w którym można wprowadzić ustawienia transformacji.
-
W polu Nazwa wpisz nazwę docelowego zestawu danych.
W polu Opis możesz dodać dłuższy opis.
-
W sekcji Materializacja wybierz, czy przekształcony wynik powinien zostać zmaterializowany, czy nie. Możesz zdecydować się na dziedziczenie tego ustawienia z ustawień zadania danych.
-
Ustawienie Wł. spowoduje utworzenie tabel i obsługę powiązanego przetwarzania ELT.
-
Opcja Wył. spowoduje utworzenie widoków, które dokonują transformacji na bieżąco.
-
-
Ładowanie przyrostowe pozwala dostosować zapytanie do przyrostowego ładowania danych przez zastosowanie filtrów lub innych warunków w celu zmniejszenia zestawu danych przetwarzanych za pomocą makr. Ładowanie przyrostowe jest dostępne tylko wtedy, gdy dane są materializowane w postaci tabel.
-
Kiedy ładowanie przyrostowe jest włączone
Pierwsze wykonanie zadania spowoduje wstępne załadowanie, wstawiając wszystkie wyniki zapytania do tabeli docelowej. Kolejne wykonania zadania będą dokonywać ładowań przyrostowych z wykorzystaniem filtrów lub określonych warunków zdefiniowanych dla przetwarzania przyrostowego. Podczas ładowania przyrostowego zadanie będzie przetwarzać dane jedynie w formie aktualizacji lub wstawiania, a usuwanie nie jest zarządzane.
-
Kiedy ładowanie przyrostowe jest wyłączone
Pierwsze wykonanie zadania spowoduje wstępne załadowanie, wstawiając wszystkie wyniki zapytania do tabeli docelowej. Kolejne wykonania będą przetwarzać wszystkie wyniki zapytania, porównując je z tabelą docelową i przetwarzając rekordy, które są nowe, zmienione lub usunięte.
InformacjaJeśli zapytanie wybierze wszystkie rekordy, które powinny istnieć w obiekcie docelowym, wyłącz opcję Ładowanie przyrostowe. Niewybrane rekordy zostaną usunięte w miejscu docelowym. -
-
Kliknij przycisk Dodaj, gdy wszystko będzie gotowe do utworzenia przepływu transformacji.
Otwarty zostanie kreator przepływu. Zostanie też utworzony cel i wyświetlony w przepływie jako komponent docelowy.
InformacjaObowiązkowe jest podanie unikatowej nazwy celu przepływu. Jeśli zechcesz później zmienić nazwę celu przepływu, wybierz cel i wprowadź nową nazwę w polu Dataset name (Nazwa zestawu danych). - Jeśli dla elementu docelowego nie zdefiniowano żadnych kluczy, kliknij opcję Edit (Edytuj) obok pola Key(s) & nullables (Klucze i wartości dopuszczające null). Zostanie otwarte okno potwierdzenia. InformacjaKlucze nie są dziedziczone ze źródłowych zestawów danych i muszą być zdefiniowane ręcznie. Wartości dopuszczające null są dziedziczone ze źródłowych zestawów danych i można je modyfikować.
- W obszarze Configure keys and nullables (Konfiguruj klucze i wartości dopuszczające null) wybierz opcję Key (Klucz) w kolumnie, którą chcesz zdefiniować jako klucz podstawowy, a następnie wybierz Nullables (Wartości dopuszczające null) w kolumnie lub kolumnach, które chcesz zdefiniować jako dopuszczające wartość null.
- Kliknij Confirm (Potwierdź), aby zapisać zmiany i zamknąć okno konfiguracji.
Jeżeli status przepływu transformacji jest prawidłowy, możesz zamknąć przepływ i przygotować dane.
Możesz zmienić ustawienia Materializacji i Ładowania przyrostowego później w Ustawieniach miejsca docelowego.
-
Wybierz miejsce docelowe i kliknij Edytuj obok pozycji Ustawienia w konfiguracji miejsca docelowego.
Dodanie procesora
Do przepływów można dodawać procesory.
Procesory to komponenty, które możesz dodawać do przepływów, aby przekształcić dane przychodzące i zwrócić dane przekształcone do następnego etapu przepływu.
- W kreatorze przepływu wybierz komponent przepływu, po którym chcesz dodać procesor.
- Kliknij w komponencie przepływu, a następnie Add processor (Dodaj procesor) i wybierz procesor, który chcesz dodać. Możesz także przeciągnąć procesor z lewego panelu na kanwę.
- Skonfiguruj procesor odpowiednio do potrzeb i kliknij Zapisz, aby zapisać zmiany i zaktualizować podgląd danych. InformacjaPodgląd próbki danych możesz wyświetlić za pomocą SQL i Podglądu danych. Więcej informacji zawiera temat Podgląd danych.
Dostępne procesory
Zastosowanie: łączenie, agregowanie i filtrowanie danych w Snowflake
W tym zastosowaniu dane klientów Snowflake muszą zostać przekształcone za pomocą procesorów. Ponieważ informacje o klientach pochodzą z dwóch zestawów danych, należy najpierw dodać procesor Join (Połączenie), aby połączyć rekordy. Można także użyć procesora Aggregate (Agregacja) do obliczenia średniej ceny zamówień oraz procesora Filter (Filtr) do filtrowania typu rekordów klientów, które chcesz przechowywać w wyjściowych zestawach danych.
Pierwszy zestaw danych jest oparty na tabeli Snowflake o nazwie CUSTOMER_ACCOUNT, a jej schemat wygląda następująco:
Drugi zestaw danych jest oparty na tabeli Snowflake o nazwie CUSTOMER_ORDER, a jej schemat wygląda następująco:
- Przeciągnij procesor Join (Połączenie) z lewego panelu Processors (Procesory) na kanwę.
- Połącz drugie źródło z procesorem Join (Połączenie), aby można było połączyć dane z obu zestawów danych.
- Skonfiguruj procesor Join (Połączenie), aby połączyć dwa źródłowe zestawy danych przy użyciu kluczy identyfikatora klienta (CUSTOMER_ID).
- Przeciągnij procesor Aggregate (Agregacja) za procesor Join (Połączenie).
- Skonfiguruj procesor Aggregate (Agregacja) do obliczania średniej kwoty zakupów klienta (ORDER_TOTAL_PRICE) i zachowaj ją w nowej kolumnie, którą możesz nazwać avg_order_price, jednocześnie grupując rekordy według typu segmentu klienta (LEFT_CUSTOMER_SEGMENT).
- Przeciągnij procesor Filter (Filtr) z lewego panelu Processors (Procesory) na kanwę.
- Skonfiguruj procesor Filter (Filtr) tak, aby filtrował według typów klientów biznesowych (Business).
- Wybierz w procesorze Filter (Filtr), aby otworzyć menu, i kliknij Add non-matching target (Dodaj niepasujący cel), aby dodać drugi cel do przepływu.
Cel ten będzie zawierał rekordy, które nie spełniały kryteriów filtrowania, typów klientów indywidualnych (Individual).
- Wprowadź nazwę nowego docelowego zestawu danych, na przykład Individual_cust.
- Sprawdź podgląd danych wyjściowych w obu celach:
Wartość docelowa business_cust pokazuje średnią cenę zamówienia dla typów klientów biznesowych, tutaj 157.463687151.
Cel individual_cust pokazuje średnią cenę zamówienia dla indywidualnych typów klientów, tutaj jest to 153.576530612.
- Sprawdź, czy przepływ transformacji ma prawidłowy stan, a następnie zamknij go.
- W oknie Transform (Przekształć) kliknij Prepare (Przygotuj), aby przygotować dane.
Najlepsze praktyki
Po dodaniu źródłowych lub docelowych zestawów danych do przepływów należy ustawić klucze i wartości dopuszczające null w panelu konfiguracji docelowych zestawów danych.