Rejestrowanie danych, które już istnieją na platformie danych
Możesz rejestrować dane już istniejące na platformie danych, aby dobierać i przekształcać dane oraz tworzyć data marty. Umożliwia to używanie danych dołączonych przy użyciu innych narzędzi niż Qlik Talend Data Integration, na przykład Qlik Replicate lub Stitch.
Podczas rejestrowania danych są tworzone dwa zadania danych.
-
Zarejestrowane dane
Rejestracja danych obejmuje tworzenie widoków w celu przygotowania danych do tworzenia zestawów danych.
-
Pamięć masowa
Wiąże się to z generowaniem i przechowywaniem zestawów danych na podstawie zarejestrowanych danych.
Po zarejestrowaniu danych możesz wykorzystać wygenerowane zestawy danych na kilka sposobów.
-
Tych zestawów danych można używać w aplikacji analitycznej.
-
Możesz tworzyć transformacje.
-
Możesz utworzyć data mart.
Zarejestruj dane
Możesz rejestrować dane, które istnieją w hurtowni danych w chmurze zdefiniowanej w projekcie. Wygenerowane zestawy danych będą przechowywane w tej samej hurtowni danych w chmurze.
Więcej informacji na temat projektów zawiera temat Tworzenie potoku danych.
-
Kliknij Dodaj nowy, a następnie Zarejestruj dane w projekcie.
-
Dodaj Nazwę i Opis do zadania danych.
Kliknij przycisk Dalej.
-
Wybierz dane do rejestracji.
Wybieranie danych do uwzględnienia
Kliknij przycisk Dalej.
Wyświetlone zostaną Ustawienia.
-
Wybierz sposób aktualizacji danych w obszarze Metoda aktualizacji.
Wybierz opcję Przyrostowo przy użyciu progu górnego, jeśli dane są replikowane przez Qlik Replicate lub Stitch.
-
Użyj opcji Przyrostowo przy użyciu progu górnego, aby przyrostowo przetwarzać zmiany danych przy użyciu wzorca progu górnego. Jest to sugerowana metoda, jeśli dane są replikowane przez Qlik Replicate (z włączoną opcją Pełne ładowanie i przechowywanie zmian) lub Stitch.
Więcej informacji można znaleźć w temacie Metoda aktualizacji.
-
Użyj opcji Porównaj z bieżącą pamięcią masową, gdy dane zostały załadowane tylko raz lub jeśli są aktualizowane przy użyciu pełnych przeładowań.
-
-
Przejrzyj dwa zadania danych, które zostały utworzone w Podsumowaniu, i zmień ich nazwę, jeśli chcesz.
WskazówkaNazwy te są używane podczas nazywania schematów baz danych w zadaniu danych pamięci masowej. Ponieważ schemat może być przypisany tylko do jednego zadania, rozważ użycie unikatowych nazw, aby uniknąć konfliktów z zadaniami danych w innych projektach wykorzystujących tę samą platformę danych. -
Wybierz, czy chcesz otworzyć zadanie zarejestrowanych danych, czy wrócić do projektu.
Kiedy wszystko będzie gotowe, kliknij Zakończ.
Zostały utworzone dwa zadania danych. Aby rozpocząć replikację danych:
-
Przygotuj zadanie zarejestrowanych danych.
Kliknij Przygotuj w zadaniu danych.
Po utworzeniu artefaktów stan zadania danych zmienia się na Zarejestrowane.
-
Przygotuj i uruchom zadanie pamięci masowej danych.
Więcej informacji zawiera temat Przechowywanie zestawów danych.
Wybieranie danych do uwzględnienia
Podczas wybierania danych do uwzględnienia możesz wybrać określone tabele lub widok albo użyć reguł wyboru w celu uwzględnienia lub wykluczenia grup tabel.
Użyj % jako symbolu wieloznacznego, aby określić kryteria wyboru schematów i tabel.
-
%.% określa wszystkie tabele we wszystkich schematach.
-
Public.% definiuje wszystkie tabele w schemacie Publiczny.
Kryteria wyboru dają podgląd na podstawie Twoich wyborów.
Możesz teraz:
-
Utwórz regułę, aby włączyć lub wykluczyć grupę tabel na podstawie kryteriów wyboru.
Kliknij przycisk Dodaj regułę spośród kryteriów wyboru, aby utworzyć regułę, a następnie wybierz opcjęUwzględnij lub Wyklucz.
Regułę można zobaczyć w sekcji Reguły selekcji.
-
Zaznacz jeden lub więcej zestawów danych, a następnie kliknij Dodaj wybrane zestawy danych.
Dodane zestawy danych możesz zobaczyć w sekcji Jawnie wybrane zestawy danych.
Reguły wyboru dotyczą tylko aktualnego zestawu tabel i widoków, a nie tabel i widoków dodanych w przyszłości.
Odświeżanie metadanych
Możesz odświeżyć metadane w zadaniu, aby dostosować je do zmian w metadanych źródła w widoku Projekt zadania. W przypadku aplikacji SaaS korzystających z narzędzia Metadata manager należy odświeżyć Metadata manager, zanim będzie można odświeżyć metadane w zadaniu danych.
-
Możesz wybrać jedną z opcji:
-
Kliknij ..., a następnie Odśwież metadane, aby odświeżyć metadane dla wszystkich zestawów danych w zadaniu.
-
Kliknij ... na zestawie danych w obszarze Zestawy danych, a następnie Odśwież metadane, aby odświeżyć metadane dla pojedynczego zestawu danych.
Stan odświeżania metadanych można sprawdzić w obszarze Odśwież metadane w dolnej części ekranu. Datę ostatniego odświeżenia metadanych można zobaczyć, wskazując kursorem .
-
-
Przygotuj zadanie danych, aby zastosować zmiany
Po przygotowaniu zadania danych i zastosowaniu zmian zmiany zostaną usunięte z Odśwież metadane.
Należy przygotować zadania pamięci masowej, które wykorzystują to zadanie, aby propagować zmiany.
Jeśli kolumna zostanie usunięta, dodana zostanie transformacja z wartościami Null, aby zapewnić, że pamięć nie utraci danych historycznych.
Ograniczenia
-
Zmiana nazwy wcześniej usuniętej kolumny w tym samym przedziale czasowym zostanie zinterpretowana jako zmiana nazwy usuniętej kolumny, jeśli mają one ten sam typ i długość danych.
Przykład:
Przed: a b c d
Po: a c1 d
W tym przykładzie usunięto b i zmieniono nazwę c na c1, a b i c mają ten sam typ i długość danych.
Zostanie to zidentyfikowane jako zmiana nazwy b na c1 i usunięcie c.
-
Zmiana nazwy ostatniej kolumny nie jest rozpoznawana, nawet jeśli ostatnia kolumna została usunięta, a nazwa poprzedniej kolumny została zmieniona.
Przykład:
Przed: a b c d
Po: a b c1
W tym przykładzie usunięto d, a nazwę c zmieniono na c1.
Zostanie to zidentyfikowane jako usunięcie c i d oraz dodanie c1.
-
Zakłada się, że nowe kolumny będą dodawane na końcu. Jeśli w środku zostaną dodane kolumny z tym samym typem danych co w następnej kolumnie, może to zostać zinterpretowane jako usunięcie i zmiana nazwy.
Ustawienia zarejestrowanych danych
Możesz ustawić właściwości zadania zarejestrowanych danych.
-
Kliknij Ustawienia.
Ustawienia ogólne
-
Baza danych
Baza danych, która ma być użyta w celu.
-
Schemat zadania
Możesz zmienić nazwę schematu zadania danych.
- Sufiks dla wszystkich tabel i widoków
Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.
InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu.
Metoda aktualizacji
Wykrywanie zmian
-
Użyj opcji Porównaj z bieżącą pamięcią masową, gdy dane zostały załadowane tylko raz lub jeśli są aktualizowane przy użyciu pełnych przeładowań.
-
Użyj opcji Przyrostowo przy użyciu progu górnego, aby przyrostowo przetwarzać zmiany danych przy użyciu metody progu górnego.
Ta opcja wymaga, aby wszystkie tabele miały zdefiniowany klucz podstawowy. Klucz podstawowy można zdefiniować ręcznie w widoku Zestawy danych dla tabel, w których brakuje klucza podstawowego.
Ustawienia obciążenia przyrostowego
Te ustawienia są dostępne po wybraniu Przyrostowo przy użyciu progu górnego.
-
Jeśli dane są replikowane przez zadanie Qlik Replicate z pełnym ładowaniem i zachowywaniem zmian, wybierz Qlik Replicateustawienia jako Ustawienia ładowania przyrostowego.
-
Jeżeli dane są replikowane przez potok danych Stitch, a tabele źródłowe mają zdefiniowany klucz główny, ustaw Ustawienia obciążenia przyrostowego na Domyślne ustawienia Stitch.
-
W przeciwnym razie ustaw Ustawienia ładowania przyrostowego na Niestandardowe i samodzielnie zdefiniuj ustawienia.
Ustawienie | Niestandardowe | Ustawienia Qlik Replicate | Ustawienia domyślne Stitch |
---|---|---|---|
Tabele zmian |
Jeżeli zmiany są w tej samej tabeli, wybierz opcję Zmiany są w tej samej tabeli. Jeśli nie, usuń zaznaczenie opcji Zmiany są w tej samej tabeli i określ wzorzec tabeli zmian w obszarze Wzorzec tabeli zmian. |
${SOURCE_TABLE_NAME}__ct table | Zmiany są w tej samej tabeli |
Kolumna progu górnego | Ustaw nazwę kolumny progu górnego w obszarze Nazwa. | header__change_seq | _SDC_BATCHED_AT |
Kolumna „Data od” |
Możesz wskazać „Datę od” na podstawie godziny rozpoczęcia operacji wsadowej lub za pomocą wybranej kolumny. Jeżeli wybierzesz Wybrana kolumna „Data od”, musisz zdefiniować Wzór „daty od”. |
header__timestamp | _SDC_BATCHED_AT
Możesz to zmienić, aby wskazywać „Od daty” na podstawie godziny rozpoczęcia operacji wsadowej lub przez wybranie innej kolumny. |
Usunięcia nietrwałe |
Możesz uwzględnić w zmianach usunięcia nietrwałe, wybierając Zmiany obejmują usunięcia nietrwałe i definiując wyrażenie wskazania. Wynikiem wyrażenia wskazania powinna być prawda, jeśli zmiana polega na usunięciu nietrwałym. Przykład: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Możesz uwzględnić w zmianach usunięcia nietrwałe, wybierając Zmiany obejmują usunięcia nietrwałe i definiując wyrażenie wskazania. Wynikiem wyrażenia wskazania powinna być prawda, jeśli zmiana polega na usunięciu nietrwałym. Przykład: ${is_deleted} = 1 |
Obraz przed |
Rekordy obrazów sprzed zmian możesz odfiltrować w tabelach zmian, wybierając Obraz przed i definiując wyrażenie wskazania. Wynikiem wyrażenia wskazania powinna być prawda, jeśli wiersz zawiera obraz sprzed aktualizacji. Przykład: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | W danych nie ma zapisów obrazu przed. |
Ustawienia katalogu
-
Opublikuj w katalogu
Wybierz tę opcję, aby opublikować tę wersję danych w Katalogu jako zbiór danych. Zawartość Katalogu zostanie zaktualizowana przy następnym przygotowywaniu zadania.
Aby uzyskać więcej informacji na temat Katalogu, zobacz Rozumienie danych za pomocą narzędzi katalogu.
Zalecana konfiguracja Qlik Replicate
Te ustawienia zadania Qlik Replicate są zalecane podczas rejestrowania danych, które są replikowane przy użyciu zadania Qlik Replicate przechowującego zmiany.
-
Zadanie Qlik Replicate należy skonfigurować z opcjami Pełne ładowanie i Zapisz zmiany.
-
Wybierz Ustawienia przechowywania zmian > Tabele zmian i sprawdź, czy uwzględniono następujące kolumny tabeli zmian, używając ich nazw domyślnych:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
Wybierz Ustawienia przechowywania zmian > Tabele zmian i ustaw Po operacji UPDATE na Przechowuj tylko obraz wynikowy.
Zmniejsza to miejsce zajmowane przez każdą aktualizację, ponieważ poprzedni obraz nie jest uwzględniany. Użyj tej opcji, jeśli nie planujesz używać obrazu poprzedniego.
-
Wybierz Ustawienia przechowywania zmian > Tabele zmian i ustaw Sufiks na wartość domyślną __ct.
-
Nie stosuj następujących przekształceń globalnych:
-
Zmiana nazwy tabeli
-
Zmiana nazwy schematu tabeli zmian
-
-
Jeśli można zaktualizować klucz podstawowy w tabeli źródłowej, włącz operacje DELETE i INSERT podczas aktualizowania opcji kolumny klucza podstawowego w obszarze Optymalizacja przetwarzania zmian.
Historia starego rekordu nie zostanie zachowana w nowym rekordzie.
InformacjaTa opcja jest obsługiwana od Qlik Replicate z listopada 2022 r.
Operacje na zadaniu zarejestrowanych danych
Z menu zadania można wykonać następujące operacje na zadaniu zarejestrowanych danych.
-
Otwórz
Powoduje otwarcie zadania danych. Możesz wyświetlić strukturę tabeli i szczegóły dotyczące zadania danych.
-
Edytuj
Umożliwia edycję nazwy i opisu zadania oraz dodawanie znaczników.
-
Usuń
Możesz usunąć zadanie danych.
Dane źródłowe nie są usuwane.
- Synchronizowanie zestawów danych
W ten sposób synchronizowane są zmiany w projekcie, które nie mogą być dostosowane automatycznie.
-
Odtwarzanie tabel
Odtwarza zbiory danych ze źródła.
-
Przechowaj dane
Możesz utworzyć zadanie przechowywania danych, które wykorzystuje dane z tego zadania umieszczania danych.
Uwagi dotyczące historii podczas ustawiania kolumny From date”.
Jeśli w zadaniu podrzędnym włączono dane historyczne i używasz kolumny „From date”, datowanie wsteczne nie jest obsługiwane. Oznacza to, że jeśli partia zmian zawiera starszą wersję rekordu, która nie istnieje w pamięci masowej, ta partia zmian musi także zawierać wszystkie nowsze wersje rekordu. Jeśli nowsze wersje nie będą dołączone, zostaną usunięte.
W tych przykładach pamięć masowa zawiera te rekordy od początku:
From date | Name | City |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Przykład 1:
Po wstawieniu następującej partii zmian:
From date | Name | City |
---|---|---|
4/Oct/2023 | Joe | Paris |
Wynik w pamięci masowej jest zgodny z oczekiwaniami:
From date | Name | City |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
4/Oct/2023 | Joe | Paris |
Przykład 2:
Jeśli jednak w partii zmian zostanie wstawiony następujący starszy rekord:
From date | Name | City |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Spowoduje to usunięcie nowszych rekordów z pamięci masowej:
From date | Name | City |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Przykład 3:
Aby zachować historię, partia zmian musi zawierać nowsze rekordy:
From date | Name | City |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Dzięki temu historia będzie zachowana także w pamięci masowej:
From date | Name | City |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Uwagi
-
Nie używaj opcji historii w replikacji Stitch. Użyj opcji, aby zachować dane historyczne w Qlik Talend Data Integration.
Uwagi dotyczące pojemności danych
-
Jeśli zarejestrowana tabela nie ma klucza podstawowego, w przypadku każdego uruchomienia zostanie wykonane pełne przeładowanie. Zostanie to wliczone do Twojego miesięcznego limitu pojemności zarejestrowanych danych. Jest tak dlatego, że pamięć masowa będzie musiała porównać wszystkie rekordy, aby znaleźć zmiany.
-
Pojemność zarejestrowanych danych jest liczona w pamięci. Oznacza to, że usunięcie zarejestrowanych danych jest interpretowane jako wstawienie lub aktualizacja pamięci (usunięcie nietrwałe) i jest uwzględniane w liczeniu pojemności danych.
-
Usunięcia nietrwałe, wstawienia i aktualizacje są liczone dwukrotnie na poczet pojemności danych, jeśli tabela z zarejestrowanych danych jest używana w dwóch zadaniach pamięci masowej danych.