Tworzenie potoku danych
Utworzenie potoku danych umożliwia przeprowadzenie integracji wszystkich danych w ramach projektu przy użyciu zadań danych. Dołączenie powoduje przeniesienie danych ze źródeł danych lokalnych i w chmurze do projektu oraz ich zapisanie w gotowych do wykorzystania zestawach danych. Można też przeprowadzić transformacje i utworzyć tematyczne hurtownie danych, aby wykorzystać wygenerowane i przekształcone zestawy danych. Potok danych może być prosty i liniowy lub złożony — wykorzystujący kilka źródeł danych i generujący wiele danych wyjściowych.
Wszystkie zadania danych zostaną utworzone w tej samej przestrzeni co projekt, do którego należą.
Można także wyświetlać pochodzenie, aby śledzić dane i transformacje danych wstecz do pierwotnego źródła, a także przeprowadzać analizę wpływu, która daje wybiegający w przyszłość wgląd w zależności zadań danych, zestawów danych lub pól. Więcej informacji zawiera temat Praca z pochodzeniem i analizą wpływu w sekcji Integracja danych.
Dołączanie danych
Obejmuje to umieszczenie danych w obszarze tymczasowym, a następnie przechowywanie zestawów danych w hurtowni danych w chmurze. Zadania dotyczące umieszczania i pamięci masowej danych są tworzone w jednym kroku. W razie potrzeby można wykonać umieszczanie i zapisanie przy użyciu osobnych zadań.
Rejestrowanie danych, które już istnieją na platformie danych
Rejestruj dane już istniejące na platformie danych, aby dobierać i przekształcać dane oraz tworzyć data marty. Umożliwia to używanie danych dołączonych przy użyciu innych narzędzi niż Qlik Talend Data Integration, na przykład Qlik Replicate lub Stitch.
Przekształcanie danych
Tworzenie przeznaczonych do wielokrotnego użytku transformacji wprowadzonych danych na poziomie wiersza na podstawie reguł i niestandardowych instrukcji SQL. Spowoduje to utworzenie zadania danych Transformacja.
Tworzenie data martów (tematycznych hurtowni danych) i zarządzanie nimi
Utwórz data mart, aby wykorzystać zestawy danych. Spowoduje to utworzenie zadania danych Data mart.
Docelowe platformy danych
Projekt jest powiązany z platformą danych, która służy jako miejsce docelowe wszystkich danych wyjściowych.
Więcej informacji o obsługiwanych platformach danych zawiera temat Konfigurowanie połączeń z miejscami docelowymi.
Wprowadzenie wideo do projektów
Przykład tworzenia projektu
W poniższym przykładzie przedstawiono dołączenie danych, ich transformację i utworzenie data martu. Spowoduje to utworzenie prostego liniowego potoku danych, który można rozszerzyć przez dołączenie większej liczby źródeł danych, utworzenie kolejnych transformacji i dodanie wygenerowanych zadań danych do data martu.
-
Utwórz nowy projekt.
W Integracja danych > Projekty kliknij Utwórz projekt.
-
Wpisz nazwę i opis projektu oraz wybierz przestrzeń, w której ma zostać utworzony projekt. Wszystkie zadania danych zostaną utworzone w przestrzeni projektu, do którego należą.
InformacjaJeśli później włączysz kontrolę wersji dla projektu, nie będzie można zmienić nazwy projektu, gdy jest on pod kontrolą wersji. - Wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz platformę danych do użycia w projekcie.
-
Wybierz połączenie z hurtownią danych w chmurze, której chcesz użyć w projekcie. Posłuży do umieszczenia plików danych i przechowywania zestawów danych oraz widoków. Jeśli jeszcze nie ma przygotowanego połączenia, utwórz je przy użyciu opcji Dodaj połączenie.
W przypadku wybrania platformy danych Google BigQuery, Databricks lub Microsoft Azure Synapse Analytics musisz też utworzyć połączenie z obszarem tymczasowym.
-
Jeśli jako platformę danych wybierzesz Qlik Cloud:
Możesz przechowywać dane w zarządzanej pamięci masowej Qlik lub we własnym zarządzanym zasobniku Amazon S3. Aby korzystać z własnego zasobnika Amazon S3, musisz też wybrać połączenie z tym zasobnikiem.
W obu przypadkach musisz wybrać również połączenie z obszarem tymczasowym Amazon S3. Jeśli używasz zasobnika zdefiniowanego w poprzednim kroku, jako obszar tymczasowy musisz wybrać inny folder w tym zasobniku.
-
Kliknij polecenie Utwórz.
Zostanie utworzony projekt i będzie można utworzyć potok danych przez dodanie zadań danych.
-
-
Dołącz dane.
W projekcie kliknij Utwórz, a następnie Dołącz dane.
Więcej informacji zawiera temat Dołączanie danych.
Spowoduje to utworzenie zadania umieszczania danych i zadania pamięci masowej danych. Aby rozpocząć replikację danych:
-
Przygotuj i uruchom zadanie umieszczania danych.
Aby uzyskać więcej informacji, zobacz temat Umieszczanie danych ze źródeł danych.
-
Przygotuj i uruchom zadanie pamięci masowej danych.
Więcej informacji zawiera temat Przechowywanie zestawów danych.
-
-
Przekształć dane.
Po utworzeniu zadania pamięci masowej danych wróć do projektu. Teraz możesz przeprowadzić transformacje na utworzonych zestawach danych.
Aby utworzyć zadanie danych transformacji na podstawie tego zadania danych pamięci masowej, kliknij ikonę ... obok zadania danych pamięci masowej i wybierz polecenie Przekształć dane. Instrukcję dotyczącą transformacji zawiera temat Przekształcanie danych.
-
Tworzenie data martu (tematycznej hurtowni danych)
Data mart można utworzyć na podstawie zadania pamięci masowej danych lub zadania danych transformacji.
Aby utworzyć zadanie danych data mart, kliknij ikonę ... obok zadania danych i wybierz polecenie Utwórz data mart. Instrukcję dotyczącą tworzenia data martu zawiera temat:
Tworzenie data martów (tematycznych hurtowni danych) i zarządzanie nimi
Po wykonaniu pierwszego pełnego ładowania zapisanych i przekształconych zestawów danych oraz data martów można użyć ich na przykład w aplikacji analitycznej. Więcej informacji o tworzeniu aplikacji analitycznej zawiera temat Tworzenie aplikacji analitycznej przy użyciu zestawów danych wygenerowanych przez Qlik Talend Data Integration.
Potok danych można rozszerzyć przez dołączenie kolejnych źródeł danych i połączenie ich w transformacji lub data marcie.
Operacje w projekcie potoku danych
Te same operacje, które są dostępne dla zadania danych, możesz wykonywać jako operacje projektu. Umożliwia to zorganizowanie operacji w potoku danych.
Włączanie i wyłączanie harmonogramów
Wykonywanie operacji projektowania
Rozpoczynanie i zatrzymywanie wykonywania zadań danych
Usuwanie zadań danych
Kliknij Operacje, aby wyświetlić stan operacji w toku lub ostatnio wykonanej operacji.
Trwającą operację możesz zatrzymać, klikając Zatrzymaj operację. Trwające zadania związane z danymi nie zostaną zatrzymane, ale każde nierozpoczęte zadanie zostanie anulowane.
Włączanie i wyłączanie harmonogramów
Harmonogramy zadań danych można kontrolować na poziomie projektu.
Kliknij ..., a następnie Harmonogram.
Harmonogram można włączać i wyłączać dla wszystkich zadań związanych z danymi lub dla wybranych zadań. Wyświetlane są tylko zadania ze zdefiniowanym harmonogramem.
InformacjaTa opcja nie jest dostępna dla projektów z platformą danych Qlik Cloud.
Aby uzyskać więcej informacji na temat planowania poszczególnych zadań danych, zobacz:
Wykonywanie operacji projektowych
Operacje projektowe można wykonywać na wszystkich zadaniach danych w projekcie lub na wybranych zadaniach. Ułatwia to kontrolowanie zadań zestawu danych w projekcie zamiast wykonywania operacji projektowych indywidualnie w każdym zadaniu.
Sprawdź poprawność
Kliknij Sprawdź poprawność, aby sprawdzić poprawność wszystkich lub wybranych zadań. Zadania dotyczące danych, które zostały zmienione od czasu ostatniej operacji sprawdzania poprawności, są wstępnie wybrane.
Zadania danych są sprawdzane w kolejności potoku.
Przygotuj
Kliknij Przygotuj, aby przygotować wszystkie lub wybrane zadania. Zadania danych, które zostały zmienione od czasu ostatniej operacji przygotowania, są wstępnie wybrane.
Możesz wybrać odtworzenie zestawów danych, które wymagają zmiany struktury nieobsługiwanej przez platformę danych. Może to prowadzić do utraty danych.
Odtwórz
Kliknij ..., a następnie Utwórz ponownie, aby odtworzyć zestawy danych ze źródła dla wszystkich lub wybranych zadań.
Uruchamianie zadań danych
Możesz zainicjować wykonanie wszystkich zadań danych w projekcie lub wybranych zadań, zamiast uruchamiać je pojedynczo. Na przykład możesz uruchamiać wszystkie zadania z harmonogramem opartym na czasie. Spowoduje to zainicjowanie podrzędnych zadań z harmonogramem opartym na zdarzeniach.
Uruchom
Kliknij Uruchom, aby zainicjować wykonanie wszystkich lub wybranych zadań. Zainicjuje to uruchomienie wszystkich wybranych zadań i zakończy się, gdy tylko zaczną być wykonywane.
Możesz wybrać spośród wszystkich zadań, które są gotowe do uruchomienia. Zadania z harmonogramem opartym na czasie i zadania korzystające z CDC są wstępnie wybrane. Zadania z harmonogramem opartym na zdarzeniach nie są wstępnie wybierane, ponieważ zostaną wykonane, gdy będą miały dane do przetworzenia.
W projekcie z platformą danych Qlik Cloud wszystkie zadania umieszczania i przechowywania są wstępnie wybrane.
InformacjaWszystkie zadania danych są wykonywane równolegle. Oznacza to, że sprawdzanie zależności może uniemożliwić uruchomienie niektórych zadań.Zatrzymaj
Kliknij Zatrzymaj, aby zatrzymać wszystkie lub wybrane zadania.
Możesz wybierać spośród uruchomionych zadań.
Usuwanie zadań danych
Kliknij Usuń, aby usunąć wszystkie zadania danych w projekcie lub wybrane zadania.
Zmiana widoku projektu
Istnieją dwa różne widoki projektu. Widoki można przełączać, klikając Widok potoku.
Widok potoku pokazuje przepływ danych zadań danych.
Ilość informacji wyświetlanych dla zadań danych można wybrać, klikając Warstwy. Włącz lub wyłącz następujące informacje:
Status
Świeżość danych
Harmonogram
Widok karty pokazuje informacje o zadaniu danych.
Możesz filtrować według typu zasobu i właściciela.
Wyświetlanie danych
Możesz wyświetlić próbkę danych, aby zobaczyć i zweryfikować stan danych podczas projektowania potoku danych.
Wymagane są następujące ustawienia:
Wyświetlanie danych jest włączone na poziomie dzierżawy w funkcji Administrowanie.
Włącz Ustawienia > Sterowanie funkcją > Wyświetlanie danych w Integracja danych.
Przypisano Ci rolę Może wyświetlać dane w przestrzeni, w której znajduje się połączenie.
Przydzielono Ci rolę Może wyświetlać w przestrzeni, w której znajduje się ten projekt.
Aby wyświetlić przykładowe dane w widoku potoku danych:
Kliknij na banerze podglądu u dołu widoku potoku.
Wybierz zadanie danych, dla którego chcesz wyświetlić podgląd danych.
Wyświetlona zostanie próbka danych. Ustawienie Liczba wierszy umożliwia określenie, ile wierszy danych należy uwzględnić w próbce.
Eksportowanie i importowanie projektów
Projekt można wyeksportować do pliku JSON, który zawiera wszystko, co jest potrzebne do zrekonstruowania projektu. Wyeksportowany plik JSON można zaimportować do tej samej lub do innej dzierżawy. Można tego użyć na przykład do przenoszenia projektów z jednej dzierżawy do innej lub do tworzenia kopii zapasowych projektów.
Więcej informacji zawiera temat Eksportowanie i importowanie potoków danych.
Ustawienia projektu
Można ustawić właściwości wspólne projektu oraz wszystkich uwzględnionych zadań danych.
Kliknij Ustawienia.
Aby uzyskać więcej informacji, zobacz temat Ustawienia projektu potoku danych.