Dodawanie przepływów transformacji

Do zadań transformacji można dołączać przepływy. Kreator przepływów umożliwia utworzenie przepływu transformacji przy użyciu źródeł, procesorów i celów w celu zdefiniowania złożonych lub prostych transformacji.

Przepływy transformacji i procesory są reprezentacjami logicznymi. Oznacza to, że w zadaniach ELT dla każdego celu tworzona jest tylko jedna tabela, a wszystkie procesory są kompilowane w jedną instrukcję SQL dla każdego celu.

Obsługiwane platformy docelowe

Obsługiwane są następujące platformy z przepływami transformacji:

Snowflake
Databricks
Google BigQuery
Azure Synapse Analytics
Microsoft Fabric
Microsoft SQL Server
Amazon Redshift

InformacjaNiedostępne są następujące funkcje Amazon Redshift: generowanie ciągów znaków UUID oraz Odległość edycji.

Wymagania wstępne

Przed utworzeniem przepływu transformacji należy wykonać następujące czynności:

Wypełnij zadanie pamięci masowej dołączonymi danymi, których chcesz użyć w przepływie transformacji, lub zarejestruj istniejące dane. Więcej informacji o dołączaniu i rejestrowaniu danych zawierają tematy Dołączanie danych do hurtowni danych i Rejestrowanie danych, które już istnieją na platformie danych.
Przygotuj i uruchom zadanie pamięci masowej lub transformacji używane jako źródło w przepływie transformacji. Uruchomienie zadania pamięci masowej nie jest obowiązkowe, ale zalecane, ponieważ umożliwia wyświetlanie podglądu danych na każdym etapie przepływu.

Tworzenie przepływu transformacji

Aby utworzyć prawidłowy przepływ transformacji, potrzebny jest co najmniej jeden źródłowy zestaw danych i jeden nazwany cel ze zdefiniowanymi kluczami.

Otwórz zadanie Przekształć dane w potoku danych.
W sekcji Przekształcenie wybierz źródłowe zestawy danych, które mają zostać włączone do przepływu transformacji, i kliknij Dodaj przepływ transformacji.
Zostanie wyświetlony komunikat Dodaj przepływ transformacji, w którym można wprowadzić ustawienia transformacji.
W polu Nazwa wpisz nazwę docelowego zestawu danych.

W polu Opis możesz dodać dłuższy opis.
W sekcji Materializacja wybierz, czy przekształcony wynik powinien zostać zmaterializowany, czy nie. Możesz zdecydować się na dziedziczenie tego ustawienia z ustawień zadania danych.
- Ustawienie Wł. spowoduje utworzenie tabel i obsługę powiązanego przetwarzania ELT.
- Opcja Wył. spowoduje utworzenie widoków, które dokonują transformacji na bieżąco.
W polu Magazyn danych historycznych (typ 2) wybierz, czy chcesz przechowywać dane historyczne. Możesz zdecydować się na dziedziczenie tego ustawienia z ustawień zadania danych. To ustawienie wymaga, aby Materializacja była włączona.
Ładowanie przyrostowe pozwala dostosować zapytanie do przyrostowego ładowania danych przez zastosowanie filtrów lub innych warunków w celu zmniejszenia zestawu danych przetwarzanych za pomocą makr. Ładowanie przyrostowe jest dostępne tylko wtedy, gdy dane są materializowane w postaci tabel.
- Kiedy ładowanie przyrostowe jest włączone
  
  Pierwsze wykonanie zadania spowoduje wstępne załadowanie, wstawiając wszystkie wyniki zapytania do tabeli docelowej. Kolejne wykonania zadania będą dokonywać ładowań przyrostowych z wykorzystaniem filtrów lub określonych warunków zdefiniowanych dla przetwarzania przyrostowego. Podczas ładowania przyrostowego zadanie będzie przetwarzać dane jedynie w formie aktualizacji lub wstawiania, a usuwanie nie jest zarządzane.
- Kiedy ładowanie przyrostowe jest wyłączone
  
  Pierwsze wykonanie zadania spowoduje wstępne załadowanie, wstawiając wszystkie wyniki zapytania do tabeli docelowej. Kolejne wykonania będą przetwarzać wszystkie wyniki zapytania, porównując je z tabelą docelową i przetwarzając rekordy, które są nowe, zmienione lub usunięte.
InformacjaJeśli zapytanie wybierze wszystkie rekordy, które powinny istnieć w obiekcie docelowym, wyłącz opcję Ładowanie przyrostowe. Niewybrane rekordy zostaną usunięte w miejscu docelowym.
Kliknij przycisk Dodaj, gdy wszystko będzie gotowe do utworzenia przepływu transformacji.

Otwarty zostanie kreator przepływu. Zostanie też utworzony cel i wyświetlony w przepływie jako komponent docelowy.

InformacjaObowiązkowe jest podanie unikatowej nazwy celu przepływu. Jeśli zechcesz później zmienić nazwę celu przepływu, wybierz cel i wprowadź nową nazwę w polu Dataset name (Nazwa zestawu danych).
Jeśli dla elementu docelowego nie zdefiniowano żadnych kluczy, kliknij opcję Edit (Edytuj) obok pola Key(s) & nullables (Klucze i wartości dopuszczające null). Zostanie otwarte okno potwierdzenia.
InformacjaKlucze nie są dziedziczone ze źródłowych zestawów danych i muszą być zdefiniowane ręcznie. Wartości dopuszczające null są dziedziczone ze źródłowych zestawów danych i można je modyfikować.
W obszarze Configure keys and nullables (Konfiguruj klucze i wartości dopuszczające null) wybierz opcję Key (Klucz) w kolumnie, którą chcesz zdefiniować jako klucz podstawowy, a następnie wybierz Nullables (Wartości dopuszczające null) w kolumnie lub kolumnach, które chcesz zdefiniować jako dopuszczające wartość null.
Kliknij Confirm (Potwierdź), aby zapisać zmiany i zamknąć okno konfiguracji.

Jeżeli status przepływu transformacji jest prawidłowy, możesz zamknąć przepływ i przygotować dane.

Możesz zmienić ustawienia Materializacji i Ładowania przyrostowego później w Ustawieniach miejsca docelowego.

Wybierz miejsce docelowe i kliknij Edytuj obok pozycji Ustawienia w konfiguracji miejsca docelowego.

Dodanie procesora

Do przepływów można dodawać procesory.

Procesory to komponenty, które możesz dodawać do przepływów, aby przekształcić dane przychodzące i zwrócić dane przekształcone do następnego etapu przepływu.

W kreatorze przepływu wybierz komponent przepływu, po którym chcesz dodać procesor.
Kliknij w komponencie przepływu, a następnie Add processor (Dodaj procesor) i wybierz procesor, który chcesz dodać. Możesz także przeciągnąć procesor z lewego panelu na kanwę.

Krótki opis procesora można wyświetlić, wybierając procesor z panelu Procesory.

Skonfiguruj procesor odpowiednio do potrzeb i kliknij Zapisz, aby zapisać zmiany i zaktualizować podgląd danych.
InformacjaPodgląd próbki danych możesz wyświetlić za pomocą SQL i Podglądu danych. Więcej informacji zawiera temat Podgląd danych.

Dostępne procesory

Procesor Aggregate (Agregacja)

Procesor AI

Procesor Cleanse (Czyszczenie)

Procesort Concatenate (Konkatenacja)

Procesor Filter (Filtr)

Procesor Fork (Rozwidlenie)

Procesor Hash (Haszowanie)

Procesor Incremental filter (Filtr przyrostowy)

Procesor Join (Połączenie)

Procesor Math (Obliczenia)

Procesor Numbers (Liczby)

Procesor Remove columns (Usuwanie kolumn)

Procesor Select columns (Wybieranie kolumn)

Procesor wyrażeń SQL

Procesor Strings (Ciągi)

Procesor Union (Suma)

Zastosowanie: łączenie, agregowanie i filtrowanie danych w Snowflake

W tym zastosowaniu dane klientów Snowflake muszą zostać przekształcone za pomocą procesorów. Ponieważ informacje o klientach pochodzą z dwóch zestawów danych, należy najpierw dodać procesor Join (Połączenie), aby połączyć rekordy. Można także użyć procesora Aggregate (Agregacja) do obliczenia średniej ceny zamówień oraz procesora Filter (Filtr) do filtrowania typu rekordów klientów, które chcesz przechowywać w wyjściowych zestawach danych.

Przebieg transformacji z procesorami Join (Połączenie), Aggregate (Agregacja) i Filter (Filtr).

Pierwszy zestaw danych jest oparty na tabeli Snowflake o nazwie CUSTOMER_ACCOUNT, a jej schemat wygląda następująco:

Schemat tabeli Snowflake dotyczący kont klientów

Drugi zestaw danych jest oparty na tabeli Snowflake o nazwie CUSTOMER_ORDER, a jej schemat wygląda następująco:

Schemat tabeli Snowflake dotyczący zamówień klientów

Przeciągnij procesor Join (Połączenie) z lewego panelu Processors (Procesory) na kanwę.
Połącz drugie źródło z procesorem Join (Połączenie), aby można było połączyć dane z obu zestawów danych.
Skonfiguruj procesor Join (Połączenie), aby połączyć dwa źródłowe zestawy danych przy użyciu kluczy identyfikatora klienta (CUSTOMER_ID).
Przeciągnij procesor Aggregate (Agregacja) za procesor Join (Połączenie).
Skonfiguruj procesor Aggregate (Agregacja) do obliczania średniej kwoty zakupów klienta (ORDER_TOTAL_PRICE) i zachowaj ją w nowej kolumnie, którą możesz nazwać avg_order_price, jednocześnie grupując rekordy według typu segmentu klienta (LEFT_CUSTOMER_SEGMENT).
Przeciągnij procesor Filter (Filtr) z lewego panelu Processors (Procesory) na kanwę.
Skonfiguruj procesor Filter (Filtr) tak, aby filtrował według typów klientów biznesowych (Business).
Wybierz w procesorze Filter (Filtr), aby otworzyć menu, i kliknij Add non-matching target (Dodaj niepasujący cel), aby dodać drugi cel do przepływu.
Cel ten będzie zawierał rekordy, które nie spełniały kryteriów filtrowania, typów klientów indywidualnych (Individual).
Wprowadź nazwę nowego docelowego zestawu danych, na przykład Individual_cust.
Sprawdź podgląd danych wyjściowych w obu celach:
Wartość docelowa business_cust pokazuje średnią cenę zamówienia dla typów klientów biznesowych, tutaj 157.463687151.
Cel individual_cust pokazuje średnią cenę zamówienia dla indywidualnych typów klientów, tutaj jest to 153.576530612.
Sprawdź, czy przepływ transformacji ma prawidłowy stan, a następnie zamknij go.
W oknie Transform (Przekształć) kliknij Prepare (Przygotuj), aby przygotować dane.

Ograniczenia i uwagi

W przepływach transformacji następujące typy danych nie mogą być używane bezpośrednio jako wartości w procesorach takich jak Czyszczenie, Skrót lub Filtr:

TIME
DATE
DATETIME
JSON

Aby pracować z tymi typami danych, należy najpierw przekonwertować je na obsługiwane formaty (na przykład STRING lub NUMERIC), a następnie użyć ich w tych procesorach.

Najlepsze praktyki

Po dodaniu źródłowych lub docelowych zestawów danych do przepływów należy ustawić klucze i wartości dopuszczające null w panelu konfiguracji docelowych zestawów danych.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię