Tworzenie projektu potoku danych | Qlik Cloud Pomoc
Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Tworzenie projektu potoku danych

Możesz utworzyć potok danych, aby przeprowadzić całą integrację danych w ramach projektu przy użyciu zadań danych. Wdrażanie przenosi dane do projektu ze źródeł danych (lokalnych lub w chmurze) i przechowuje je w gotowych do użycia zestawach danych. Możesz wdrażać dane do hurtowni danych w chmurze lub do Qlik Open Lakehouse.

Wdrażając dane do hurtowni danych, możesz również przeprowadzać transformacje i tworzyć hurtownie tematyczne (data marts), aby wykorzystać wygenerowane i przekształcone zestawy danych. Potok danych może być prosty i liniowy lub może to być złożony potok wykorzystujący kilka źródeł danych i generujący wiele wyników.

InformacjaProjekty potoków danych nie obsługują łączników w wersji zapoznawczej aplikacji SaaS. Aby dowiedzieć się, czy Twój łącznik jest w wersji zapoznawczej, zapoznaj się z pomocą dotyczącą łącznika.

Wszystkie zadania danych zostaną utworzone w tej samej przestrzeni co projekt, do którego należą.

Możesz również wyświetlić pochodzenie, aby śledzić dane i transformacje danych wstecz do oryginalnego źródła, a także przeprowadzić analizę wpływu, która pokazuje perspektywiczne, zstępujące widoki zależności zadań danych, zestawów danych lub pól. Więcej informacji zawiera temat Praca z pochodzeniem i analizą wpływu w sekcji Integracja danych.

InformacjaAby utworzyć projekt potoku, musisz mieć rolę niestandardową z uprawnieniem Projekty potoków lub uprawnienie to musi być włączone w ustawieniach Domyślne użytkownika. Więcej informacji zawiera temat Uprawnienia w roli User Default i rolach niestandardowych.

Dołączanie danych do hurtowni danych

Obejmuje to umieszczanie danych w obszarze przejściowym, a następnie przechowywanie zestawów danych w hurtowni danych w chmurze. Zadania danych umieszczania i przechowywania są tworzone w jednym kroku. W razie potrzeby można również wykonać umieszczanie i przechowywanie za pomocą oddzielnych zadań.

Dołączanie danych do Qlik Open Lakehouse

Utwórz projekt potoku Qlik Open Lakehouse, aby skopiować dane z dowolnego obsługiwanego źródła do otwartego formatu tabeli Iceberg. Tabele mogą być dostępne i odpytywane z silnika analitycznego hurtowni danych w chmurze bez duplikowania danych za pomocą zadania danych kopii lustrzanej.

Rejestrowanie danych, które już istnieją na platformie danych

Zarejestruj dane, które już istnieją na platformie danych, aby je selekcjonować i przekształcać oraz tworzyć hurtownie tematyczne. Pozwala to na korzystanie z danych wdrożonych za pomocą narzędzi innych niż Qlik Talend Data Integration, na przykład Qlik Replicate lub Stitch.

Transformacja danych

Twórz transformacje na poziomie wiersza wielokrotnego użytku na wdrożonych danych w oparciu o reguły i niestandardowy kod SQL. Spowoduje to utworzenie zadania Transformacja danych.

Tworzenie i zarządzanie hurtowniami danych

Utwórz hurtownię tematyczną, aby wykorzystać swoje zestawy danych. Spowoduje to utworzenie zadania danych hurtowni tematycznej.

Tworzenie hurtowni wiedzy

Utwórz hurtownię wiedzy, aby osadzać i przechowywać ustrukturyzowane i nieustrukturyzowane dane w wektorowej bazie danych. Spowoduje to utworzenie zadania danych hurtowni wiedzy.

Docelowe platformy danych

Projekt jest powiązany z platformą danych, która jest używana jako cel dla wszystkich danych wyjściowych.

Więcej informacji o obsługiwanych platformach danych zawiera temat Konfigurowanie połączeń z miejscami docelowymi.

Wprowadzenie wideo do projektów

video thumbnail

Przykład tworzenia projektu

Poniższy przykład wykonuje wdrażanie danych, transformację danych i tworzenie hurtowni tematycznej. Spowoduje to utworzenie prostego liniowego potoku danych, który można rozbudować, wdrażając więcej źródeł danych, tworząc więcej transformacji i dodając wygenerowane zadania danych do hurtowni tematycznej.

Przykład liniowego potoku danych w projekcie

Schemat przepływu potoków danych
  1. W sekcji Integracja danych > Projekty potoków kliknij Utwórz nowy > Projekt.

    1. Wprowadź nazwę i opis projektu.

      InformacjaJeśli później włączysz kontrolę wersji dla projektu, nie będziesz w stanie zmienić nazwy projektu, gdy będzie on objęty kontrolą wersji.
    2. Wybierz przestrzeń, w której chcesz utworzyć projekt. Wszystkie zadania danych zostaną utworzone w przestrzeni projektu, do którego należą.

    3. Wybierz Potok danych w polu Przypadek użycia.
    4. Wybierz platformę danych do użycia w projekcie.

    5. Wybierz połączenie z hurtownią danych w chmurze, którego chcesz użyć w projekcie. Będzie ono używane do umieszczania plików danych oraz przechowywania zestawów danych i widoków. Jeśli nie przygotowano jeszcze połączenia, utwórz je za pomocą opcji Utwórz nowe.

      • Jeśli jako platformę danych wybrano Google BigQuery, Databricks lub Microsoft Azure Synapse Analytics, musisz również połączyć się z obszarem przejściowym.

      • Jeśli jako platformę danych wybrano Snowflake, możesz wybrać umieszczanie danych w pamięci masowej w chmurze. Zobacz Umieszczanie danych w lakehouse.

      • Jeśli jako platformę danych wybrano Qlik Cloud:

        Możesz przechowywać dane w pamięci masowej zarządzanej przez Qlik lub we własnym zarządzanym zasobniku Amazon S3. Jeśli chcesz użyć własnego zasobnika Amazon S3, musisz wybrać połączenie z tym zasobnikiem.

        W obu przypadkach musisz również wybrać połączenie z obszarem przejściowym Amazon S3. Jeśli używasz tego samego zasobnika, który zdefiniowano w poprzednim kroku, upewnij się, że używasz innego folderu w zasobniku do celów przejściowych.

    6. Kliknij Utwórz.

      Projekt został utworzony i możesz utworzyć swój potok danych, dodając zadania danych.

  2. W projekcie kliknij Utwórz, a następnie Wdróż dane.

    Więcej informacji zawiera temat Dołączanie danych do hurtowni danych.

    Spowoduje to utworzenie zadania danych umieszczania i zadania danych przechowywania. Aby rozpocząć replikację danych, musisz:

  3. Po utworzeniu zadania danych przechowywania wróć do projektu. Możesz teraz przeprowadzać transformacje na utworzonych zestawach danych.

    Kliknij ... na zadaniu danych przechowywania i wybierz Transformacja danych, aby utworzyć zadanie danych transformacji na podstawie tego zadania danych przechowywania. Instrukcje dotyczące transformacji zawiera temat Transformacja danych.

  4. Możesz utworzyć hurtownię tematyczną na podstawie zadania danych przechowywania lub zadania danych transformacji.

    Kliknij ... na zadaniu danych i wybierz Utwórz hurtownię tematyczną, aby utworzyć zadanie danych hurtowni tematycznej. Instrukcje dotyczące tworzenia hurtowni tematycznej zawiera temat:

    Tworzenie i zarządzanie hurtowniami danych

Po wykonaniu pierwszego pełnego ładowania przechowywanych i przekształconych zestawów danych oraz hurtowni tematycznych można ich użyć na przykład w aplikacji analitycznej. Więcej informacji o tworzeniu aplikacji analitycznych zawiera temat Tworzenie aplikacji analitycznej przy użyciu zestawów danych wygenerowanych przez Integrację danych.

Możesz również rozbudować potok danych, wdrażając więcej źródeł danych i łącząc je w transformacji lub w hurtowni tematycznej.

Budowanie potoków międzyprojektowych

Możesz budować potoki międzyprojektowe, w których zadanie może wykorzystywać zadania z innego projektu. Pozwala to na osiągnięcie segmentacji na kilka możliwych sposobów:

  • Możesz utworzyć oddzielny potok przenoszenia danych dla każdej jednostki organizacyjnej i wykorzystywać wyniki w jednym potoku hurtowni tematycznej.

  • Możesz utworzyć jeden potok przenoszenia danych i wykorzystywać jego wyniki w kilku potokach transformacji.

OstrzeżenieW żadnym wypadku nie należy tworzyć cyklicznych zależności zadań w projektach potoków danych. Cykliczne zależności zadań poważnie wpływają na stabilność, wydajność i łatwość konserwacji.

Zadania Transformacja i Hurtownia tematyczna mogą wykorzystywać zadania Przechowywanie i Transformacja znajdujące się w innym projekcie.

  • Musisz mieć co najmniej rolę Może wykorzystywać w przestrzeni wykorzystywanego projektu.

  • Oba projekty muszą znajdować się na tej samej platformie danych.

Wszystkie zestawy danych zadania są udostępniane projektom zstępującym. Oznacza to, że jeśli chcesz osiągnąć segregację zestawów danych, musisz odfiltrować zestawy danych w wykorzystywanym projekcie, tworząc zadanie transformacji.

W widoku projektów można wyświetlać zadania wykorzystywane przez inny projekt oraz zadania z innych projektów, które są wykorzystywane w bieżącym projekcie. Wszystkie zadania poza bieżącym projektem są szare. Zależności opierają się na odniesieniach, a nie na nazwach, co oznacza, że można zmienić nazwę zadania bez przerywania odniesienia. Oznacza to również, że jeśli usuniesz wykorzystywane zadanie i utworzysz nowe zadanie o tej samej nazwie, odniesienie nadal będzie przerwane.

Istnieje kilka sposobów na ponowne wykorzystanie istniejących danych:

  • Tworzenie nowego projektu

    Po utworzeniu projektu wybierz opcję Użyj danych z innego projektu.

    Możesz utworzyć transformację lub hurtownię tematyczną, wykorzystując wdrożone dane z innego potoku.

  • W zadaniu Transformacja lub zadaniu Hurtownia tematyczna możesz wybrać dane z innego projektu w sekcji Wybierz dane źródłowe.

    Podczas wybierania danych źródłowych wybierz Projekt. Jeśli wybrany projekt podlega kontroli wersji, wybierz Gałąź. Domyślną gałęzią jest main. Lista zadań danych zostanie zaktualizowana, aby odzwierciedlić wybraną gałąź. Następnie wybierz Zadanie danych, aby zobaczyć, które zestawy danych są dostępne.

Możesz wybrać, czy chcesz wyświetlać zadania w innych projektach, które wykorzystują zadanie w tym projekcie.

  • Kliknij Warstwy i włącz lub wyłącz Dane wyjściowe między projektami.

Wszystkie zadania poza bieżącym projektem są szare.

Ograniczenia kontroli wersji

Ponieważ potoki międzyprojektowe są podzielone na kilka projektów, zwiększa to złożoność podczas korzystania z kontroli wersji. W tych przykładach Project1 jest wykorzystywany przez Project2.

Przykład potoku międzyprojektowego

  • Project2 może wykorzystywać określoną gałąź Project1. Wybierz gałąź w sekcji Wybierz dane źródłowe w zadaniu transformacji lub hurtowni tematycznej. Domyślną gałęzią jest main. Jeśli projekt, do którego następuje odwołanie, nie podlega kontroli wersji, selektor gałęzi nie jest wyświetlany, a Project2 używa projektu w jego obecnej postaci.

  • Możesz utworzyć gałąź dla Project1, ale wersja z gałęzią nie będzie pokazywać, że jest wykorzystywana przez Project2.

  • Możesz scalić Project2 z gałęzią main, ale zależność nadal będzie istnieć.

Informacja

Jeśli gałąź wybrana w Project1 zostanie później usunięta, odniesienie zostanie przerwane w taki sam sposób, jak w przypadku usunięcia zadania, do którego następuje odwołanie. Jeśli zadanie, do którego następuje odwołanie, ma inne dane wyjściowe w wybranej gałęzi, odniesienie zachowuje się w taki sam sposób, jak w przypadku zmiany danych wyjściowych zadania, do którego następuje odwołanie.

Najlepsze praktyki

  • Sprawdź, czy zadania w wykorzystywanym projekcie są co najmniej przygotowane, aby upewnić się, że są prawidłowe.

  • Jeśli planujesz eksportować i importować projekty między dzierżawami, będzie łatwiej, jeśli zachowasz te same nazwy przestrzeni i projektów w dzierżawach. Jeśli nazwy się różnią, podczas importowania projektu konieczne będzie zamapowanie projektów i zadań.

  • Jeśli chcesz zmienić platformę danych za pomocą eksportu i importu, wszystkie projekty z zależnościami muszą znajdować się na tej samej platformie.

    Wykonaj te kroki, aby bezpiecznie i łatwo zmienić platformę. W tym przykładzie wykorzystywany projekt nosi nazwę Consumed, a projekt odczytujący z Consumed nosi nazwę Consumer.

    1. Wyeksportuj Consumed i Consumer.

    2. Zaimportuj Consumed do Consumed_New, zmieniając na nową platformę danych.

    3. Zaimportuj Consumer do Consumer_New, zmieniając na tę samą platformę danych co Consumed_New i zastępując projekt źródłowy (Consumed) projektem Consumed_New.

Operacje w projekcie potoku danych

Możesz wykonywać te same operacje, które są dostępne dla zadania danych, jako operacje projektu. Pozwala to na orkiestrację operacji w potoku danych.

InformacjaW danym momencie można wykonać tylko jedną operację projektu na projekt.
  • Włączanie i wyłączanie harmonogramów

  • Wykonywanie operacji projektowych

  • Uruchamianie i zatrzymywanie wykonywania zadań danych

  • Usuwanie zadań danych

Kliknij Operacje, aby wyświetlić stan trwającej operacji lub ostatnio wykonanej operacji.

Możesz zatrzymać trwającą operację, klikając Zatrzymaj operację. Zadania danych, które są w toku, nie zostaną zatrzymane, ale anulowane zostanie każde zadanie, które jeszcze się nie rozpoczęło.

Włączanie i wyłączanie harmonogramów

Możesz kontrolować harmonogramy zadań danych na poziomie projektu.

  • Kliknij ..., a następnie Harmonogram.

    Możesz włączyć lub wyłączyć harmonogram dla wszystkich zadań danych lub wybranych zadań. Wyświetlane są tylko zadania ze zdefiniowanym harmonogramem.

    InformacjaTa opcja nie jest dostępna dla projektów z Qlik Cloud jako platformą danych.

Więcej informacji o harmonogramowaniu poszczególnych zadań danych zawiera temat:

Wykonywanie operacji projektowych

Możesz wykonywać operacje projektowe na wszystkich zadaniach danych w projekcie lub na wybranych zadaniach. Ułatwia to kontrolowanie zadań zestawów danych w projekcie zamiast wykonywania operacji projektowych indywidualnie w każdym zadaniu.

  • Sprawdź poprawność

    Kliknij Sprawdź poprawność, aby sprawdzić poprawność wszystkich zadań lub wybranych zadań. Zadania danych, które zostały zmienione od czasu ostatniej operacji sprawdzania poprawności, są wstępnie wybrane.

    Poprawność zadań danych jest sprawdzana w kolejności potoku.

  • Przygotuj

    Kliknij Przygotuj, aby przygotować wszystkie zadania lub wybrane zadania. Zadania danych, które zostały zmienione od czasu ostatniej operacji przygotowania, są wstępnie wybrane.

    Możesz wybrać ponowne utworzenie zestawów danych, które wymagają zmiany struktury nieobsługiwanej przez platformę danych. Może to prowadzić do utraty danych.

  • Utwórz ponownie

    Kliknij ..., a następnie Utwórz ponownie tabele, aby ponownie utworzyć zestawy danych ze źródła dla wszystkich zadań lub dla wybranych zadań.

    InformacjaJeżeli występują problemy z poszczególnymi tabelami, zaleca się najpierw przeładowanie tabel zamiast ich odtwarzania. Odtworzenie tabel może spowodować utratę danych historycznych. Jeśli występują zmiany zakłócające działanie, należy również przygotować podrzędne zadania danych, które wykorzystają odtworzone zadania danych do przeładowania danych.

Uruchamianie zadań danych

Możesz zainicjować wykonywanie wszystkich zadań danych w projekcie lub wybranych zadań zamiast uruchamiać zadania indywidualnie. Na przykład możesz uruchomić wszystkie zadania z harmonogramem opartym na czasie. Zainicjuje to zadania zstępujące z harmonogramem opartym na zdarzeniach.

  • Uruchom

    Kliknij Uruchom, aby zainicjować wykonywanie wszystkich zadań lub wybranych zadań. Inicjuje to uruchomienie wszystkich wybranych zadań i kończy się, gdy tylko zaczną się one wykonywać.

    Możesz wybierać spośród wszystkich zadań, które są gotowe do uruchomienia. Zadania z harmonogramem opartym na czasie i zadania korzystające z CDC są wstępnie wybrane. Zadania z harmonogramem opartym na zdarzeniach nie są wstępnie wybierane, ponieważ zostaną wykonane, gdy będą miały dane do przetworzenia.

    W projekcie z Qlik Cloud jako platformą danych wszystkie zadania umieszczania i przechowywania są wstępnie wybrane.

    InformacjaWszystkie zadania danych są wykonywane równolegle. Oznacza to, że kontrole zależności mogą uniemożliwić uruchomienie niektórych zadań.
  • Zatrzymaj

    Kliknij Zatrzymaj, aby zatrzymać wszystkie zadania lub wybrane zadania.

    Możesz wybierać spośród uruchomionych zadań.

Usuwanie zadań danych

  • Kliknij Usuń, aby usunąć wszystkie zadania danych w projekcie lub wybrane zadania.

Nie można usunąć zadań, które są uruchomione, ani zadań, które są używane przez inne zadania.

Zmiana widoku projektu

Istnieją dwa różne widoki projektu. Możesz przełączać się między widokami, klikając Widok potoku.

  • Widok potoku pokazuje przepływ danych zadań danych.

    Możesz wybrać, ile informacji ma być wyświetlanych dla zadań danych, klikając Warstwy. Włącz lub wyłącz następujące informacje:

    • Status

    • Świeżość danych

    • Harmonogram

    • Dane wyjściowe między projektami

      Spowoduje to wyświetlenie zadań w innych projektach, które wykorzystują zadanie w tym projekcie. Wszystkie zadania poza bieżącym projektem są szare.

  • Widok kart pokazuje widok kart z informacjami o zadaniu danych.

    Możesz filtrować według typu zasobu i właściciela.

Usuwanie projektu

  • W widoku Projekty potoków kliknij Więcej na projekcie i wybierz Usuń.

Możesz wybrać zachowanie artefaktów (tabel i widoków) utworzonych przez zadanie dla każdego poszczególnego zadania, z wyjątkiem następujących typów, w których artefakty są zawsze zachowywane:

  • Zadania umieszczania

  • Zadania umieszczania w jeziorze danych

  • Zadania replikacji

InformacjaPamiętaj, że zachowane artefakty nie będą już aktualizowane przez zadanie.

Wyświetlanie danych

Możesz wyświetlić próbkę danych, aby zobaczyć i zweryfikować kształt danych podczas projektowania potoku danych.

Wymagane są następujące uprawnienia:

  • Wyświetlanie danych jest włączone na poziomie dzierżawy w Administrowanie.

    Włącz Ustawienia > Kontrola funkcji > Wyświetlanie danych w Integracja danych.

  • Masz przypisaną rolę Może wyświetlać dane w przestrzeni, w której znajduje się połączenie.

  • Masz przypisaną rolę Może wyświetlać w przestrzeni, w której znajduje się projekt.

Aby wyświetlić dane przykładowe w widoku potoku danych:

  1. Kliknij W górę na banerze podglądu u dołu widoku potoku.

  2. Wybierz zadanie danych, dla którego chcesz wyświetlić podgląd danych.

Wyświetlana jest próbka danych. Możesz ustawić, ile wierszy danych ma zostać uwzględnionych w próbce, za pomocą opcji Liczba wierszy.

Eksportowanie i importowanie projektów

Możesz wyeksportować projekt do pliku JSON, który zawiera wszystko, co jest potrzebne do zrekonstruowania projektu. Wyeksportowany plik JSON można zaimportować w tej samej dzierżawie lub w innej dzierżawie. Możesz tego użyć na przykład do przenoszenia projektów z jednej dzierżawy do drugiej lub do tworzenia kopii zapasowych projektów.

Więcej informacji zawiera temat Eksportowanie i importowanie potoków danych.

Zmiana właściciela projektu

Zadania danych działają w kontekście właściciela projektu, do którego należą. Możesz zmienić właściciela projektu, aby przenieść kontrolę nad wszystkimi zadaniami w projekcie danych na innego użytkownika. Jest to przydatne na przykład wtedy, gdy istnieją projekty, których właścicielem jest usunięty użytkownik.

InformacjaZmiana właściciela projektu wymaga roli Administrator dzierżawy lub Administrator danych. Więcej informacji o wymaganych rolach i uprawnieniach zawiera temat Role i uprawnienia w przestrzeni danych.
  • W widoku projektu kliknij ..., a następnie Zmień właściciela.

Zmiana własności będzie dotyczyć wszystkich zadań w projekcie. Wszystkie skatalogowane zestawy danych utworzone przez zadania w projekcie również zmienią właściciela.

Zmiana połączenia z platformą danych

Jeśli zmienisz połączenie Platforma danych dla projektu, musisz:

  1. Ponownie utworzyć tabele we wszystkich zadaniach umieszczania.

  2. Przygotować wszystkie inne zadania w projekcie.

Wyświetlanie informacji o projekcie

Kliknij Informacje na pasku menu, aby wyświetlić informacje o projekcie, takie jak:

  • Właściciel

  • Przestrzeń

  • Platforma danych

  • Identyfikator projektu

Ustawienia projektu

Możesz ustawić właściwości, które są wspólne dla projektu i wszystkich uwzględnionych zadań danych.

  • Kliknij Ustawienia.

Więcej informacji zawiera temat Ustawienia projektu potoku danych.

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!