Transformacja danych | Qlik Cloud Pomoc
Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Transformacja danych

Możesz tworzyć oparte na regułach transformacje danych wielokrotnego użytku jako część potoku danych. Możesz wykonywać transformacje w ramach wdrażania danych lub tworzyć zadania danych transformacji wielokrotnego użytku. Możesz wykonywać transformacje na poziomie wiersza, uwzględniać transformacje SQL i projektować złożone przepływy transformacji. Wynikowe zestawy danych mogą być materializowane jako tabele lub tworzone jako widoki, które wykonują transformacje w locie.

InformacjaZaawansowane transformacje są dostępne z subskrypcją Qlik Talend Cloud Premium lub Qlik Talend Cloud Enterprise.
  • Możesz wykonywać jawne transformacje zestawów danych lub tworzyć reguły globalne, które transformują wiele zestawów danych. Możesz również filtrować zestaw danych, aby utworzyć podzbiór wierszy.

  • Możesz dodawać transformacje SQL. Transformacja SQL pozwala na wprowadzenie zapytania SQL SELECT do potoku w celu zdefiniowania złożonych lub prostych transformacji.

  • Możesz dodawać wizualne przepływy transformacji ze źródłami, procesorami i celami, aby definiować złożone lub proste transformacje.

InformacjaZadania danych działają w kontekście właściciela ich projektu. Więcej informacji na temat wymaganych ról i uprawnień zawiera temat Role i uprawnienia w przestrzeni danych.

Zadanie danych transformacji zawiera trzy widoki:

  • Transformacja

    Ten widok wyświetla wszystkie transformacje, aby zwizualizować przepływ od źródłowego zestawu danych do docelowego zestawu danych.

  • Zestawy danych

    Ten widok wyświetla wszystkie podstawowe transformacje na zestawach danych, takie jak filtrowanie danych lub dodawanie kolumn, a także reguły do wykonywania globalnych transformacji.

  • Model

    Ten widok pozwala na utworzenie modelu danych z relacjami między uwzględnionymi zestawami danych. Więcej informacji zawiera sekcja Tworzenie modelu danych.

Oprócz przechowywania tabel w hurtowni danych można również przechowywać tabele jako tabele Iceberg, które są zarządzane przez platformę danych. Ta opcja jest obecnie dostępna tylko w przypadku projektów Snowflake. Jest to możliwe po wybraniu zarządzanych przez Snowflake tabel Iceberg w sekcji Typ tabeli w ustawieniach zadania.

Tworzenie zadania danych transformacji

Najprostszym sposobem na utworzenie zadania danych transformacji jest kliknięcie ... w zadaniu danych przechowywania, a następnie wybranie Transformacja danych.

Możesz również kliknąć Utwórz w projekcie i wybrać Transformacja danych. W tym przypadku musisz zdefiniować, którego źródłowego zadania danych użyć.

  1. Zdefiniuj swoje dane źródłowe i cele w widoku Transformacja.

    Możesz:

    • Wybierz źródłowe zestawy danych i kliknij Dodaj do celu, aby dodać je do sekcji Cel.

      Następnie możesz wykonać podstawowe transformacje na zestawach danych, takie jak filtrowanie danych lub dodawanie kolumn, w widoku Zestawy danych.

      Więcej informacji zawiera sekcja Zarządzanie zestawami danych.

    • Wybierz źródłowe zestawy danych i kliknij Dodaj transformację SQL.

      Transformacja SQL pozwala na wprowadzenie zapytania SQL SELECT do potoku w celu zdefiniowania złożonych lub prostych transformacji.

      Więcej informacji zawiera sekcja Dodawanie transformacji SQL.

    • Wybierz źródłowe zestawy danych i kliknij Dodaj przepływ transformacji.

      Projektant przepływu pozwala na utworzenie przepływu transformacji ze źródłami, procesorami i celami w celu zdefiniowania złożonych lub prostych transformacji.

      Więcej informacji zawiera sekcja Dodawanie przepływów transformacji.

  2. Możesz również dodać więcej zestawów danych z innych zadań danych przechowywania, klikając Wybierz dane źródłowe.

    Możesz dodać zestawy danych z bieżącego projektu lub z innego projektu. Aby dodać zestawy danych z innego projektu:

    • Musisz mieć co najmniej rolę Może konsumować w przestrzeni konsumowanego projektu.

    • Oba projekty muszą znajdować się na tej samej platformie danych.

    Jeśli wybrany projekt podlega kontroli wersji, możesz wybrać, której gałęzi użyć jako źródła. Więcej informacji o potokach międzyprojektowych zawiera sekcja Budowanie potoków międzyprojektowych.

  3. Po dodaniu żądanych transformacji zweryfikuj zestawy danych, klikając Weryfikuj zestawy danych. Jeśli weryfikacja wykaże błędy, napraw je przed kontynuowaniem.

    Więcej informacji zawiera sekcja Sprawdzanie poprawności i dostosowywanie zestawów danych.

  4. Utwórz model danych

    Kliknij Model, aby ustawić relacje między uwzględnionymi zestawami danych.

    Więcej informacji zawiera sekcja Tworzenie modelu danych.

  5. Kliknij Przygotuj, aby przygotować zadanie danych i wszystkie wymagane artefakty. Może to chwilę potrwać.

    Możesz obserwować postęp w sekcji Postęp przygotowywania w dolnej części ekranu.

    InformacjaZanim przygotujesz zadanie, zatrzymaj wszystkie zadania, które znajdują się bezpośrednio po nim.
  6. Gdy status zmieni się na Przygotowano, możesz uruchomić zadanie danych.

    Kliknij ..., a następnie Uruchom.

Zadanie danych rozpocznie teraz tworzenie zestawów danych w celu transformacji danych.

InformacjaNie można zmienić uwzględnionych zestawów danych po rozpoczęciu generowania zestawów danych.

Korzystanie z widoku Transformacja

W widoku Transformacja wyświetlane są wszystkie transformacje, aby zwizualizować przepływ od źródłowego zestawu danych do docelowego zestawu danych.

  • Wybierz transformację, aby zobaczyć, które źródłowe zestawy danych są używane i które docelowe zestawy danych są tworzone.

  • Wybierz źródło, aby zobaczyć wszystkie transformacje, w których jest używane, oraz wszystkie wynikowe cele.

  • Wybierz cel, aby zobaczyć, które to źródłowe zestawy danych i która transformacja utworzyła ten docelowy zestaw danych.

Widok transformacji w transformacji

Widok transformacji w transformacji

Możesz zmienić następujące ustawienia, klikając Opcje wyświetlania:

  • Filtruj według typu transformacji

    Wyświetlaj tylko transformacje jednego lub dwóch typów transformacji.

  • Filtruj

    Wyświetlaj wszystkie transformacje lub tylko wybraną transformację. Musisz wybrać transformację, aby włączyć tę opcję.

  • Gęstość

    Wybierz, czy chcesz wyświetlać transformacje w układzie kompaktowym, czy w układzie szerokim, zajmującym więcej miejsca.

Korzystanie z widoku Zestawy danych

W widoku Zestawy danych możesz przeglądać i edytować wszystkie docelowe zestawy danych w zadaniu transformacji.

Więcej informacji zawiera również sekcja Zarządzanie zestawami danych.

Dodawanie docelowego zestawu danych

Możesz dodać więcej docelowych zestawów danych do zadania transformacji.

  1. Kliknij Dodaj zestaw danych.

  2. Podaj Nazwę i opcjonalnie Opis dla zestawu danych.

  3. Wybierz źródłowy zestaw danych z zestawów danych dostępnych w zadaniu w polu Źródłowy zestaw danych.

    WskazówkaMożesz wybrać Brak źródłowego zestawu danych, aby utworzyć pusty zestaw danych, niepołączony z żadnym źródłem. Możesz dodawać kolumny do zestawu danych podczas projektowania, ale musisz połączyć się ze źródłowym zestawem danych, zanim będzie można przygotować zadanie.

Docelowy zestaw danych został teraz dodany.

Zmiana źródłowego zestawu danych

Możesz zmienić źródłowy zestaw danych dla docelowego zestawu danych.

  1. Kliknij edytuj po Źródło: [nazwa źródłowego zestawu danych].

  2. Wybierz inny źródłowy zestaw danych z zestawów danych dostępnych w zadaniu w polu Źródłowy zestaw danych.

    WskazówkaMożesz wybrać Brak źródłowego zestawu danych, aby odłączyć docelowy zestaw danych od źródła. Możesz edytować zestaw danych podczas projektowania, ale musisz połączyć się ze źródłowym zestawem danych, zanim będzie można przygotować zadanie.

Dodawanie nowych kolumn

Możesz dodać nowe kolumny do docelowego zestawu danych.

  • Kliknij + Dodaj.

    Podaj nazwę kolumny i ustaw wyrażenie, aby zdefiniować dane kolumny.

    Więcej informacji zawiera sekcja Dodawanie kolumn do zestawu danych.

  • Kliknij w dół obok Dodaj i wybierz Dodaj kolumnę ze źródła.

    Wybierz kolumnę ze źródłowego zestawu danych.

Zmiana kolejności kolumn

Możesz zmienić pozycję porządkową kolumny.

  1. Wybierz kolumnę.

  2. Kliknij więcej, a następnie Zmień kolejność.

  3. Użyj strzałek, aby przenieść kolumnę w górę lub w dół.

  4. Zamknij Zmień pozycję porządkową, gdy skończysz.

Tworzenie reguł transformacji

Możesz tworzyć reguły transformacji wielokrotnego użytku, aby wykonywać globalną transformację na zestawach danych.

Więcej informacji o tworzeniu reguł zawiera sekcja Tworzenie reguł przekształcania zestawów danych.

WskazówkaMożesz wyświetlić efekty reguł, wybierając Pokaż efekty reguł. Nie możesz wprowadzać zmian w zestawach danych, gdy opcja Pokaż efekty reguł jest włączona.

Filtrowanie zestawu danych

W razie potrzeby możesz filtrować dane, aby utworzyć podzbiór wierszy.

  • Kliknij więcej, a następnie Filtruj.

Więcej informacji o filtrowaniu zawiera sekcja Filtrowanie zestawów danych.

Harmonogramowanie zadania transformacji

Możesz zaplanować okresowe aktualizowanie zadania transformacji. Możesz ustawić harmonogram oparty na czasie lub ustawić uruchamianie zadania po zakończeniu działania wejściowych zadań danych.

Kliknij ... w zadaniu danych i wybierz Harmonogramowanie, aby utworzyć harmonogram. Domyślne ustawienie harmonogramowania jest dziedziczone z ustawień w projekcie. Więcej informacji o ustawieniach domyślnych zawiera sekcja Wartości domyślne transformacji.

Zawsze musisz ustawić Harmonogramowanie na Wł., aby włączyć harmonogram.

InformacjaJeśli wszystkie zestawy danych w zadaniu są niematerializowane, nie ma nic do uruchomienia, ponieważ transformacja jest wykonywana w locie za pomocą widoków. Nadal możesz utworzyć harmonogram dla niematerializowanego zadania transformacji, aby uruchamiało się po spełnieniu warunku harmonogramu. Zadanie zakończy się natychmiast, co może wyzwolić zadanie podrzędne, na przykład hurtownię danych (data mart). Pozwala to na zbudowanie opartego na zdarzeniach harmonogramu potoku, który obejmuje niematerializowane transformacje bez przerywania przepływu potoku.

Harmonogramy oparte na czasie

Możesz użyć harmonogramu opartego na czasie, aby uruchamiać zadanie niezależnie od tego, kiedy aktualizowane są różne źródła wejściowe.

  • Wybierz O określonej godzinie w polu Uruchom zadanie danych.

Możesz ustawić harmonogram godzinowy, dzienny, tygodniowy lub miesięczny.

Harmonogramy oparte na zdarzeniach

Możesz użyć harmonogramu opartego na zdarzeniach, aby uruchamiać zadanie po zakończeniu działania wejściowych zadań danych.

  • Wybierz Przy określonym zdarzeniu w polu Uruchom zadanie danych.

Możesz wybrać, czy chcesz uruchomić zadanie, gdy dowolne z zadań wejściowych zakończy się pomyślnie, czy gdy dowolne z wybranych zadań wejściowych zakończy się pomyślnie.

InformacjaZadanie nie zostanie uruchomione, jeśli jakiekolwiek zadanie wejściowe lub zadanie podrzędne jest uruchomione w momencie wyzwolenia harmonogramu. Zadanie jest pomijane do następnego zaplanowanego uruchomienia.

Monitorowanie zadania transformacji

Możesz monitorować status i postęp zadania transformacji, klikając Monitoruj.

Więcej informacji zawiera sekcja Monitorowanie indywidualnego zadania danych.

Ponowne ładowanie danych

Możesz wykonać ręczne ponowne ładowanie tabel, jeśli dane są zmaterializowane jako tabele fizyczne. Jest to przydatne, gdy występują problemy z jedną lub kilkoma tabelami.

InformacjaJeśli zestawy danych są niematerializowane, musisz ponownie załadować źródłowe zestawy danych w nadrzędnym zadaniu danych, aby odświeżyć dane.
  1. Otwórz zadanie danych i wybierz kartę Monitoruj.

  2. Wybierz tabele, które chcesz ponownie załadować.

  3. Kliknij Ponownie załaduj tabele.

Ponowne ładowanie nastąpi przy następnym uruchomieniu zadania. Proces ponownego ładowania zachowuje się inaczej w zależności od ustawienia historii i typu transformacji każdego zestawu danych. Oznacza to, że proces ponownego ładowania może różnić się między zestawami danych w zadaniu danych.

Możesz anulować ponowne ładowanie dla tabel, które mają status oczekująca na ponowne ładowanie, klikając Anuluj ponowne ładowanie. Nie wpłynie to na tabele, które zostały już ponownie załadowane, a aktualnie trwające ponowne ładowania zostaną zakończone.

Zadania podrzędne zostaną ponownie załadowane, aby zastosować zmiany i uniknąć antydatowania.

Wpływ na zadania podrzędne po ponownym załadowaniu zadania Transformacja danych

Efekty ponownego ładowania transformacji na zadania podrzędne

Wpływ na zadania podrzędne zależy od typu wykonanej operacji ponownego ładowania oraz typu bezpośredniego podrzędnego zestawu danych. Standardowe przetwarzanie oznacza, że zestaw danych zareaguje i przetworzy dane przy użyciu skonfigurowanej metody dla określonego zestawu danych.

Przykład: Ponowne ładowanie zestawu danych poprzez obcięcie i załadowanie

  • Jeśli następny zestaw danych używa transformacji zestawów danych, zostanie on ponownie załadowany przy następnym wykonaniu poprzez obcięcie i załadowanie.

  • Jeśli następny zestaw danych to transformacja SQL lub przepływ transformacji, zostanie on ponownie załadowany przy użyciu porównania i zastosowania.

Ponowne ładowanie zestawu danych bez historii

W tym przypadku nie ma historii do uwzględnienia. Aby zmniejszyć przetwarzanie w celu, ponowne ładowanie jest wykonywane poprzez:

  1. Obcięcie tabel.

  2. Załadowanie bieżących danych z nadrzędnego zadania danych.

Zadania podrzędne zostaną ponownie załadowane, aby zastosować zmiany.

Ponowne ładowanie zestawu danych z włączoną historią

Ponowne ładowanie jest wykonywane poprzez:

  1. Obcięcie tabel bieżących, wcześniejszych i zmian.

  2. Załadowanie danych z nadrzędnego zadania danych, w tym tabel wcześniejszych.

Ponowne ładowanie zestawu danych opartego na transformacji SQL lub przepływie transformacji

  • Obetnij i ponownie załaduj

    InformacjaTa opcja może spowodować utratę historii.
    1. Obcięcie tabel bieżących i zmian.

    2. Uruchomienie zapytania i załadowanie go do bieżących tabel.

  • Ponownie załaduj i porównaj

    1. Uruchomienie zapytania i porównanie go z bieżącymi tabelami.

    2. Dodanie zmian.

InformacjaGdy zestaw danych oparty na transformacji SQL lub przepływie transformacji jest ponownie ładowany z powodu ponownego załadowania zadania nadrzędnego, jest on zawsze ponownie ładowany poprzez porównanie i zastosowanie. Jeśli chcesz go obciąć i ponownie załadować, musisz wydać polecenie określonego ponownego załadowania dla tych tabel. W takim przypadku musisz również wziąć pod uwagę wpływ na tabele podrzędne.

Usuwanie zadania

Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.

  • W widoku Projekt potoku projektu kliknij Więcej na zadaniu i wybierz Usuń.

Artefakty (tabele i widoki) utworzone przez zadanie również zostaną usunięte, chyba że zdecydujesz się je zachować.

InformacjaPamiętaj, że zachowane artefakty nie będą już aktualizowane przez zadanie.

Wyświetlanie informacji o zadaniu

Kliknij Informacje na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:

  • Właściciel

  • Przestrzeń

  • Platforma danych

  • Identyfikator projektu

  • Identyfikator czasu wykonania zadania danych

Ustawienia transformacji

Możesz ustawić właściwości dla zadania danych transformacji.

  • Kliknij Ustawienia.

OstrzeżenieJeśli zadanie zostało już uruchomione, zmiana ustawienia innego niż Ustawienia środowiska uruchomieniowego wymaga ponownego utworzenia zestawów danych.

Ustawienia ogólne

  • Baza danych

    Baza danych do użycia w źródle danych.

  • Schemat zadania

    Możesz zmienić nazwę schematu zadania danych. Domyślna nazwa to nazwa zadania.

  • Schemat wewnętrzny

    Możesz zmienić nazwę wewnętrznego schematu przechowywania. Domyślna nazwa to nazwa zadania z dołączonym przyrostkiem „__internal”.

  • Domyślna wielkość liter nazwy schematu

    Możesz ustawić domyślną wielkość liter dla wszystkich nazw schematów. Jeśli Twoja baza danych jest skonfigurowana tak, aby wymuszać wielkość liter, ta opcja nie będzie miała wpływu.

  • Sufiks dla wszystkich tabel i widoków

    Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.

    InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu.
  • Zmaterializowane

    Możesz wybrać tworzenie tylko widoków, które wykonują transformacje w locie (Niematerializowane), lub tworzenie zarówno tabel, jak i widoków (Zmaterializowane).

  • Magazyn danych historycznych (Typ 2)

    Możesz zachować historyczne dane zmian, aby łatwo odtworzyć dane w postaci, w jakiej wyglądały w określonym momencie. Możesz użyć widoków historii i widoków historii na żywo, aby zobaczyć dane historyczne.

  • Opublikuj w katalogu

    Wybierz tę opcję, aby opublikować tę wersję danych w Katalogu jako zbiór danych. Zawartość Katalogu zostanie zaktualizowana przy następnym przygotowywaniu zadania.

    Aby uzyskać więcej informacji na temat Katalogu, zobacz Rozumienie danych za pomocą narzędzi katalogu.

Ustawienia środowiska uruchomieniowego

  • Wykonywanie równoległe

    Możesz ustawić maksymalną liczbę połączeń dla pełnych ładowań na liczbę od 1 do 5.

  • Hurtownia

    Nazwa hurtowni danych w chmurze.

Ustawienia typu widoku

Ustawienia typu widoku mają zastosowanie tylko do platformy Snowflake.

  • Widoki standardowe

    Używaj widoków standardowych w większości przypadków.

  • Bezpieczne widoki Snowflake

    Używaj bezpiecznych widoków Snowflake dla widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być ujawniane wszystkim użytkownikom tabel podstawowych.

    Informacja Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe.

Ustawienia typu tabeli

Ustawienia te są dostępne tylko w projektach, w których platformą danych jest Snowflake.

  • Rodzaj tabeli

    Można wybrać typ tabeli:

    • Tabele Snowflake

    • Tabele Iceberg zarządzane przez Snowflake

      Należy ustawić domyślną nazwę woluminu zewnętrznego w Wolumin zewnętrzny Snowflake.

  • Folder pamięci w chmurze do użycia

    Wybierz folder, który będzie używany podczas umieszczania danych w obszarze tymczasowym.

    • Domyślny folder

      W ten sposób zostanie utworzony folder o domyślnej nazwie: <nazwa projektu>/<nazwa zadania danych>.

    • Folder główny

      Zapisz dane w głównym folderze pamięci masowej.

    • Folder

      Określ nazwę folderu, który ma być używany.

  • Synchronizuj ze Snowflake Open Catalog

    Włącz tę opcję, aby umożliwić aplikacji Snowflake Open Catalog zarządzanie plikami w pamięci masowej plików w chmurze.

Najlepsze praktyki

  • Nie można zmienić źródła dla zestawu danych w hurtowni danych (data mart), jeśli dodano fakty i wymiary. Jeśli chcesz zachować elastyczność, możesz dodać poprzedzające zadanie Transformacja z niematerializowanymi widokami, które można wykorzystać do zmiany źródeł, a także do posiadania modelu dla wszystkich zadań źródłowych.

Ograniczenia

  • Nie można zmienić typów danych w zadaniu danych transformacji, gdy wybrana jest opcja Niematerializowane.

  • Pochodzenie na poziomie pola nie jest dostępne dla zestawów danych utworzonych w transformacjach SQL lub przepływach transformacji.

  • Użycie opcji Dodaj do celu do odczytu z zadania Kopia lustrzana Qlik Open Lakehouse ustawionego na Tylko dołączanie nie jest obsługiwane.

    Jako obejście możesz odczytywać dane przy użyciu transformacji SQL lub przepływu transformacji.

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!