Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Tworzenie potoku danych

Utworzenie potoku danych umożliwia przeprowadzenie integracji wszystkich danych w ramach projektu przy użyciu zadań danych. Dołączenie powoduje przeniesienie danych ze źródeł danych lokalnych i w chmurze do projektu oraz ich zapisanie w gotowych do wykorzystania zestawach danych. Można też przeprowadzić transformacje i utworzyć tematyczne hurtownie danych, aby wykorzystać wygenerowane i przekształcone zestawy danych. Potok danych może być prosty i liniowy lub złożony — wykorzystujący kilka źródeł danych i generujący wiele danych wyjściowych.

Wszystkie zadania danych zostaną utworzone w tej samej przestrzeni co projekt, do którego należą.

Można także wyświetlać pochodzenie, aby śledzić dane i transformacje danych wstecz do pierwotnego źródła, a także przeprowadzać analizę wpływu, która daje wybiegający w przyszłość wgląd w zależności zadań danych, zestawów danych lub pól. Więcej informacji zawiera temat Praca z pochodzeniem i analizą wpływu w sekcji Integracja danych.

Docelowe platformy danych

Projekt jest powiązany z platformą danych, która służy jako miejsce docelowe wszystkich danych wyjściowych.

Więcej informacji o obsługiwanych platformach danych zawiera temat Konfigurowanie połączeń z miejscami docelowymi.

Wprowadzenie wideo do projektów

video thumbnail

Przykład tworzenia projektu

W poniższym przykładzie przedstawiono dołączenie danych, ich transformację i utworzenie data martu. Spowoduje to utworzenie prostego liniowego potoku danych, który można rozszerzyć przez dołączenie większej liczby źródeł danych, utworzenie kolejnych transformacji i dodanie wygenerowanych zadań danych do data martu.

Przykład liniowego potoku danych w projekcie

  1. W obszarze Integracja danych > Projekty kliknij Utwórz nowy > Projekt.

    1. Wpisz nazwę i opis projektu oraz wybierz przestrzeń, w której ma zostać utworzony projekt. Wszystkie zadania danych zostaną utworzone w przestrzeni projektu, do którego należą.

      InformacjaJeśli później włączysz kontrolę wersji dla projektu, nie będzie można zmienić nazwy projektu, gdy jest on pod kontrolą wersji.
    2. Wybierz opcję Potok danych w obszarze Zastosowanie.
    3. Wybierz platformę danych do użycia w projekcie.

    4. Wybierz połączenie z hurtownią danych w chmurze, której chcesz użyć w projekcie. Posłuży do umieszczenia plików danych i przechowywania zestawów danych oraz widoków. Jeśli jeszcze nie ma przygotowanego połączenia, utwórz je przy użyciu opcji Dodaj połączenie.

      W przypadku wybrania platformy danych Google BigQuery, Databricks lub Microsoft Azure Synapse Analytics musisz też utworzyć połączenie z obszarem tymczasowym.

    5. Jeśli jako platformę danych wybierzesz Qlik Cloud:

      Możesz przechowywać dane w zarządzanej pamięci masowej Qlik lub we własnym zarządzanym zasobniku Amazon S3. Aby korzystać z własnego zasobnika Amazon S3, musisz też wybrać połączenie z tym zasobnikiem.

      W obu przypadkach musisz wybrać również połączenie z obszarem tymczasowym Amazon S3. Jeśli używasz zasobnika zdefiniowanego w poprzednim kroku, jako obszar tymczasowy musisz wybrać inny folder w tym zasobniku.

    6. Kliknij polecenie Utwórz.

      Zostanie utworzony projekt i będzie można utworzyć potok danych przez dodanie zadań danych.

  2. W projekcie kliknij Utwórz, a następnie Dołącz dane.

    Więcej informacji zawiera temat Dołączanie danych.

    Spowoduje to utworzenie zadania umieszczania danych i zadania pamięci masowej danych. Aby rozpocząć replikację danych:

  3. Po utworzeniu zadania pamięci masowej danych wróć do projektu. Teraz możesz przeprowadzić transformacje na utworzonych zestawach danych.

    Aby utworzyć zadanie danych transformacji na podstawie tego zadania danych pamięci masowej, kliknij ikonę ... obok zadania danych pamięci masowej i wybierz polecenie Przekształć dane. Instrukcję dotyczącą transformacji zawiera temat Przekształcanie danych.

  4. Data mart można utworzyć na podstawie zadania pamięci masowej danych lub zadania danych transformacji.

    Aby utworzyć zadanie danych data mart, kliknij ikonę ... obok zadania danych i wybierz polecenie Utwórz data mart. Instrukcję dotyczącą tworzenia data martu zawiera temat:

    Tworzenie data martów (tematycznych hurtowni danych) i zarządzanie nimi

Po wykonaniu pierwszego pełnego ładowania zapisanych i przekształconych zestawów danych oraz data martów można użyć ich na przykład w aplikacji analitycznej. Więcej informacji o tworzeniu aplikacji analitycznej zawiera temat Tworzenie aplikacji analitycznej przy użyciu zestawów danych wygenerowanych przez Qlik Talend Data Integration.

Potok danych można rozszerzyć przez dołączenie kolejnych źródeł danych i połączenie ich w transformacji lub data marcie.

Budowanie potoków międzyprojektowych

Można tworzyć potoki międzyprojektowe, w których zadanie może wykorzystywać zadania z innego projektu. Pozwala to osiągnąć segmentację na kilka możliwych sposobów:

  • Można utworzyć oddzielny potok ruchu danych dla każdej jednostki organizacyjnej i wykorzystać dane wyjściowe w pojedynczym potoku data mart.

  • Można utworzyć pojedynczy potok ruchu danych i wykorzystać dane wyjściowe w kilku potokach transformacji danych.

Zadania transformacji i data mart mogą wykorzystywać zadania pamięci masowej i transformacji zlokalizowane w innym projekcie danych.

  • Musisz mieć co najmniej rolę Może używać w przestrzeni użytkowanego projektu.

  • Oba projekty muszą znajdować się na tej samej platformie danych.

Wszystkie zestawy danych zadania są udostępniane kolejnym projektom. Oznacza to, że jeśli chcesz osiągnąć segregację zestawów danych, musisz odfiltrować zestawy danych w użytkowanym projekcie, tworząc zadanie transformacji.

W widoku projektów można wyświetlać zadania, które są wykorzystywane przez inny projekt, a także zadania z innych projektów, które są wykorzystywane w bieżącym projekcie. Wszystkie zadania spoza bieżącego projektu są wyszarzone. Zależności są oparte na odwołaniach, a nie nazwach, co oznacza, że można zmienić nazwę zadania bez naruszania odwołania. Oznacza to również, że jeśli usuniesz zadanie, które jest wykorzystywane, i utworzysz nowe zadanie o tej samej nazwie, odwołanie nadal będzie uszkodzone.

Istnieje kilka sposobów na ponowne wykorzystywanie istniejących danych:

  • Tworzenie nowego projektu

    Wybierz opcję Użyj danych z innego projektu po utworzeniu projektu.

    Można utworzyć transformację lub data mart, wykorzystując dane z innego potoku.

  • W zadaniu transformacji danych lub data mart można wybrać dane z innego projektu w Wybierz źródło danych.

    Wybierając dane źródłowe, wybierz Projekt, a następnie Zadanie danych, aby zobaczyć, które zestawy danych są dostępne.

Możesz wybrać, czy chcesz wyświetlać zadania w innych projektach, które wykorzystują zadanie w tym projekcie.

  • Kliknij Warstwy i włącz lub wyłącz Wyniki międzyprojektowe.

Wszystkie zadania spoza bieżącego projektu są wyszarzone.

Ograniczenia kontroli wersji

Ponieważ potoki międzyprojektowe są podzielone między kilka projektów, zwiększa to złożoność podczas korzystania z kontroli wersji. W tych przykładach Project1 jest wykorzystywany przez Project2.

Przykład potoku międzyprojektowego

  • Project2 może wykorzystywać tylko główną gałąź Project1, ale sam Project2 może znajdować się w innej gałęzi.

  • Możesz utworzyć gałąź dla Project1, ale rozgałęziona wersja nie będzie pokazywać, że jest wykorzystywana przez Project2.

  • Możesz scalić Project2 z Main, ale zależność nadal będzie istnieć.

Najlepsze praktyki

  • Sprawdź, czy zadania w wykorzystywanym projekcie są przynajmniej przygotowane, aby upewnić się, że są prawidłowe.

  • Unikaj projektowania potoków, które tworzą pętlę lub wzajemne zależności między projektami.

  • Jeśli zamierzasz eksportować i importować projekty między dzierżawami, będzie to łatwiejsze, jeśli zachowasz te same nazwy dla przestrzeni i projektów w dzierżawach. Jeśli nazwy się różnią, trzeba będzie zamapować projekty i zadania podczas importowania projektu.

  • Jeśli chcesz zmienić platformę danych za pomocą eksportowania i importowania, wszystkie projekty z zależnościami muszą znajdować się na tej samej platformie.

    Wykonaj poniższe kroki w celu bezpiecznej i łatwej zmiany platformy. W tym przykładzie projekt wykorzystywany nosi nazwę Consumed, a projekt odczytujący z Consumed nosi nazwę Consumer.

    1. Wyeksportuj projekt Consumed i Consumer.

    2. Zaimportuj Consumed do Consumed_New, zmieniając platformę danych na nową.

    3. Zaimportuj Consumer do Consumer_New, zmieniając platformę danych na tę samą co w przypadku Consumed_New i zastępując projekt źródłowy (Consumed) projektem Consumed_New.

Operacje w projekcie potoku danych

Te same operacje, które są dostępne dla zadania danych, możesz wykonywać jako operacje projektu. Umożliwia to zorganizowanie operacji w potoku danych.

InformacjaNa jeden projekt można wykonać tylko jedną operację projektu naraz.
  • Włączanie i wyłączanie harmonogramów

  • Wykonywanie operacji projektowania

  • Rozpoczynanie i zatrzymywanie wykonywania zadań danych

  • Usuwanie zadań danych

Kliknij Operacje, aby wyświetlić stan operacji w toku lub ostatnio wykonanej operacji.

Trwającą operację możesz zatrzymać, klikając Zatrzymaj operację. Trwające zadania związane z danymi nie zostaną zatrzymane, ale każde nierozpoczęte zadanie zostanie anulowane.

Włączanie i wyłączanie harmonogramów

Harmonogramy zadań danych można kontrolować na poziomie projektu.

  • Kliknij ..., a następnie Harmonogram.

    Harmonogram można włączać i wyłączać dla wszystkich zadań związanych z danymi lub dla wybranych zadań. Wyświetlane są tylko zadania ze zdefiniowanym harmonogramem.

    InformacjaTa opcja nie jest dostępna dla projektów z platformą danych Qlik Cloud.

Aby uzyskać więcej informacji na temat planowania poszczególnych zadań danych, zobacz:

Wykonywanie operacji projektowych

Operacje projektowe można wykonywać na wszystkich zadaniach danych w projekcie lub na wybranych zadaniach. Ułatwia to kontrolowanie zadań zestawu danych w projekcie zamiast wykonywania operacji projektowych indywidualnie w każdym zadaniu.

  • Sprawdź poprawność

    Kliknij Sprawdź poprawność, aby sprawdzić poprawność wszystkich lub wybranych zadań. Zadania dotyczące danych, które zostały zmienione od czasu ostatniej operacji sprawdzania poprawności, są wstępnie wybrane.

    Zadania danych są sprawdzane w kolejności potoku.

  • Przygotuj

    Kliknij Przygotuj, aby przygotować wszystkie lub wybrane zadania. Zadania danych, które zostały zmienione od czasu ostatniej operacji przygotowania, są wstępnie wybrane.

    Możesz wybrać odtworzenie zestawów danych, które wymagają zmiany struktury nieobsługiwanej przez platformę danych. Może to prowadzić do utraty danych.

  • Odtwórz

    Kliknij ..., a następnie Utwórz ponownie, aby odtworzyć zestawy danych ze źródła dla wszystkich lub wybranych zadań.

Uruchamianie zadań danych

Możesz zainicjować wykonanie wszystkich zadań danych w projekcie lub wybranych zadań, zamiast uruchamiać je pojedynczo. Na przykład możesz uruchamiać wszystkie zadania z harmonogramem opartym na czasie. Spowoduje to zainicjowanie podrzędnych zadań z harmonogramem opartym na zdarzeniach.

  • Uruchom

    Kliknij Uruchom, aby zainicjować wykonanie wszystkich lub wybranych zadań. Zainicjuje to uruchomienie wszystkich wybranych zadań i zakończy się, gdy tylko zaczną być wykonywane.

    Możesz wybrać spośród wszystkich zadań, które są gotowe do uruchomienia. Zadania z harmonogramem opartym na czasie i zadania korzystające z CDC są wstępnie wybrane. Zadania z harmonogramem opartym na zdarzeniach nie są wstępnie wybierane, ponieważ zostaną wykonane, gdy będą miały dane do przetworzenia.

    W projekcie z platformą danych Qlik Cloud wszystkie zadania umieszczania i przechowywania są wstępnie wybrane.

    InformacjaWszystkie zadania danych są wykonywane równolegle. Oznacza to, że sprawdzanie zależności może uniemożliwić uruchomienie niektórych zadań.
  • Zatrzymaj

    Kliknij Zatrzymaj, aby zatrzymać wszystkie lub wybrane zadania.

    Możesz wybierać spośród uruchomionych zadań.

Usuwanie zadań danych

  • Kliknij Usuń, aby usunąć wszystkie zadania danych w projekcie lub wybrane zadania.

Zmiana widoku projektu

Istnieją dwa różne widoki projektu. Widoki można przełączać, klikając Widok potoku.

  • Widok potoku pokazuje przepływ danych zadań danych.

    Ilość informacji wyświetlanych dla zadań danych można wybrać, klikając Warstwy. Włącz lub wyłącz następujące informacje:

    • Status

    • Świeżość danych

    • Harmonogram

    • Wyniki międzyprojektowe

      Spowoduje to wyświetlanie zadań w innych projektach, które wykorzystują zadanie w tym projekcie. Wszystkie zadania spoza bieżącego projektu są wyszarzone.

  • Widok karty pokazuje informacje o zadaniu danych.

    Możesz filtrować według typu zasobu i właściciela.

Wyświetlanie danych

Możesz wyświetlić próbkę danych, aby zobaczyć i zweryfikować stan danych podczas projektowania potoku danych.

Wymagane są następujące ustawienia:

  • Wyświetlanie danych jest włączone na poziomie dzierżawy w funkcji Administrowanie.

    Włącz Ustawienia > Sterowanie funkcją > Wyświetlanie danych w Integracja danych.

  • Przypisano Ci rolę Może wyświetlać dane w przestrzeni, w której znajduje się połączenie.

  • Przydzielono Ci rolę Może wyświetlać w przestrzeni, w której znajduje się ten projekt.

Aby wyświetlić przykładowe dane w widoku potoku danych:

  1. Kliknij W górę na banerze podglądu u dołu widoku potoku.

  2. Wybierz zadanie danych, dla którego chcesz wyświetlić podgląd danych.

Wyświetlona zostanie próbka danych. Ustawienie Liczba wierszy umożliwia określenie, ile wierszy danych należy uwzględnić w próbce.

Eksportowanie i importowanie projektów

Projekt można wyeksportować do pliku JSON, który zawiera wszystko, co jest potrzebne do zrekonstruowania projektu. Wyeksportowany plik JSON można zaimportować do tej samej lub do innej dzierżawy. Można tego użyć na przykład do przenoszenia projektów z jednej dzierżawy do innej lub do tworzenia kopii zapasowych projektów.

Więcej informacji zawiera temat Eksportowanie i importowanie potoków danych.

Zmiana właściciela projektu

Zadania danych działają w kontekście właściciela ich projektu. Możesz zmienić właściciela projektu, aby przekazać kontrolę nad wszystkimi zadaniami w projekcie danych innemu użytkownikowi. Przydaje się to na przykład wtedy, gdy właścicielem projektów jest użytkownik, który został usunięty.

InformacjaZmiana właściciela projektu wymaga roli administratora dzierżawy lub administratora danych. Więcej informacji na temat wymaganych ról i uprawnień zawiera temat Role i uprawnienia w przestrzeni danych.
  • W widoku projektu kliknij ..., a następnie Zmień właściciela.

Zmiana właściciela będzie miała zastosowanie do wszystkich zadań w projekcie. Wszystkie skatalogowane zestawy danych utworzone przez zadania w projekcie również zmienią właściciela.

Ustawienia projektu

Można ustawić właściwości wspólne projektu oraz wszystkich uwzględnionych zadań danych.

  • Kliknij Ustawienia.

Aby uzyskać więcej informacji, zobacz temat Ustawienia projektu potoku danych.

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!