Ustawienia umieszczania
Możesz skonfigurować ustawienia zadania umieszczania danych.
-
Otwórz zadanie umieszczania danych i kliknij Ustawienia na pasku narzędzi.
Otworzy się okno dialogowe Ustawienia: <nazwa-zadania>. Dostępne ustawienia opisano poniżej.
Ogólne
-
Baza danych
Baza danych, która ma być użyta w celu.
InformacjaTa opcja nie jest dostępna podczas umieszczania danych w Qlik Cloud (za pośrednictwem Amazon S3). -
Schemat zadania
Możesz zmienić nazwę schematu zadania danych umieszczania. Nazwa domyślna to Umieszczanie.
InformacjaTa opcja nie jest dostępna podczas umieszczania danych w Qlik Cloud (za pośrednictwem Amazon S3). -
Sufiks dla wszystkich tabel i widoków
Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.
InformacjaTa opcja nie jest dostępna podczas umieszczania danych w Qlik Cloud (za pośrednictwem Amazon S3).InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu. -
Metoda aktualizacji
Zadanie umieszczania rozpoczyna się zawsze od pełnego ładowania. Po zakończeniu pełnego ładowania możesz zachować aktualność umieszczonych danych, stosując jedną z następujących metod:
InformacjaPo ukończeniu operacji przygotowania zadania umieszczania danych nie można zmienić metody aktualizacji.-
Przechwytywanie zmian danych (CDC)
Umieszczone dane są aktualizowane przy użyciu technologii przechwytywania danych zmian CDC. CDC może nie być obsługiwane przez wszystkie źródła danych. CDC nie rejestruje operacji DDL, takich jak zmiana nazwy kolumn czy zmiany w metadanych.
Jeśli dane zawierają także widoki lub tabele, które nie obsługują CDC, zostaną utworzone dwa potoki danych. Jeden potok ze wszystkimi tabelami obsługującymi CDC i drugi potok ze wszystkimi innymi tabelami i widokami przy użyciu metody aktualizacji Przeładuj i porównaj.
-
Przeładuj i porównaj
Wszystkie ładowane dane są przeładowywane ze źródła. Jest to przydatne, jeśli źródło nie obsługuje CDC, ale można używać tego trybu z dowolnym obsługiwanym źródłem danych.
Możesz zaplanować okresowe ponowne ładowania.
-
-
Folder do użycia w obszarze tymczasowym
W przypadku platform danych wymagających obszaru tymczasowego (na przykład Databricks i Azure Synapse Analytics) możesz wybrać folder używany podczas umieszczania danych.
-
Domyślny folder
W ten sposób zostanie utworzony folder o domyślnej nazwie: <nazwa projektu>/<nazwa zadania danych>.
-
Folder główny
Zapisz dane w głównym folderze pamięci masowej.
InformacjaTa opcja jest dostępna tylko podczas umieszczania danych w Qlik Cloud (za pośrednictwem Amazon S3). -
Folder
Określ nazwę folderu, który ma być używany.
-
-
Zmień interwał przetwarzania
Możesz ustawić interwał przetwarzania zmian ze źródła.
InformacjaTa opcja jest dostępna tylko podczas umieszczania danych w Qlik Cloud (za pośrednictwem Amazon S3). -
Serwer proxy podczas używania bramy Ruch danych
InformacjaTa opcja jest dostępna tylko podczas uzyskiwania dostępu do celów za pośrednictwem bramy Data Movement gateway.Możesz wybrać serwer proxy, kiedy brama Ruch danych łączy się z hurtownią danych w chmurze i obszarem przechowywania.
Aby uzyskać więcej informacji na temat konfigurowania bramy Ruch danych pod kątem użycia serwera proxy, patrz Ustawianie Qlik Cloud dzierżawcy i serwera proxy.
-
Używaj serwera proxy do łączności z hurtownią danych
InformacjaDostępne podczas pracy z Snowflake, Google BigQuery i Databricks. -
Używaj serwera proxy do łączności z pamięcią masową
InformacjaDostępne podczas pracy z Azure Synapse Analytics, Amazon Redshift i Databricks.
-
Przesyłania danych
-
Maksymalny rozmiar pliku (MB)
Maksymalny rozmiar, jaki może osiągnąć plik przed zamknięciem. Mniejsze pliki mogą być przesyłane szybciej (w zależności od sieci), a jeśli są używane w połączeniu z opcją wykonywania równoległego, może to poprawić wydajność. Ogólnie jednak zaśmiecanie bazy danych małymi plikami uważa się za złą praktykę.
InformacjaTo ustawienie jest istotne dla wszystkich platform danych oprócz Qlik Cloud. -
Użyj kompresji
Po wybraniu tej opcji pliki CSV zostaną skompresowane (przy użyciu programu gzip) przed przesłaniem do Google BigQuery.
Informacja- To ustawienie dotyczy tylko Google BigQuery.
- Wymagana jest wersja 2023.5.16 lub nowsza Brama danych ruchu danych.
Metadane
Kolumny LOB
-
Uwzględnij kolumny LOB i ogranicz rozmiar kolumn do (KB):
Możesz zdecydować o uwzględnieniu kolumn LOB w zadaniu i określić maksymalny rozmiar LOB. Obiekty LOB, które mają rozmiar większy od maksymalnego, zostaną przycięte.
InformacjaPodczas używania Azure Synapse Analytics jako miejsca docelowego maksymalny rozmiar LOB nie może być większy niż 7 MB.
Tabele kontrolne
Wybierz spośród tabel kontrolnych te, które chcesz utworzyć na platformie docelowej:
- Status umieszczania: Przedstawia szczegółowe informacje na temat bieżącego zadania umieszczania danych, w tym status zadania, ilość pamięci zużywanej przez zadanie, liczbę zmian, które nie zostały jeszcze zastosowane na platformie danych oraz pozycję w źródłowym punkcie końcowym, z którego aktualnie odczytuje Brama danych ruchu danych.
- Zawieszone tabele: Przedstawia listę zawieszonych tabel oraz powody ich zawieszenia.
- Historia umieszczania: Przedstawia informacje o historii zadania, w tym liczbę i wolumen rekordów przetworzonych podczas zadania umieszczania, opóźnienie na końcu zadania CDC itp.
-
Historia DDL: Zawiera historię wszystkich obsługiwanych zmian DDL, które wystąpiły podczas zadania.
InformacjaTabela Historla DDL jest obsługiwana tylko w przypadku następujących platform docelowych:
-
Databricks
- Microsoft Fabric
-
Szczegółowy opis poszczególnych tabel kontrolnych zawiera temat Tabele kontrolne
Pełne ładowanie
Strojenie wydajności
- Maksymalna liczba tabel do załadowania równoległego: wprowadź maksymalną liczbę tabel, które można załadować jednocześnie do miejsca docelowego. Wartością domyślną jest 5.
-
Limit czasu spójności transakcji (sekundy): wprowadź liczbę sekund oczekiwania na zamknięcie otwartych transakcji przed rozpoczęciem operacji Pełne ładowanie. Wartością domyślną jest 600 (10 minut). Pełne ładowanie rozpocznie się po osiągnięciu limitu czasu, nawet jeśli będą nadal istnieć otwarte transakcje.
InformacjaAby zreplikować transakcje, które były otwarte w momencie rozpoczęcia pełnego ładowania, ale zostały zatwierdzone dopiero po osiągnięciu limitu czasu, należy przeładować tabele docelowe. - Współczynnik zatwierdzania podczas pełnego ładowania: maksymalna liczba zdarzeń, które można przenieść razem. Wartością domyślną jest 10000.
Po zakończeniu pełnego ładowania
Utwórz klucz główny lub unikatowy indeks: wybierz tę opcję, jeśli chcesz opóźnić utworzenie klucza głównego lub unikatowego indeksu na platformie danych do czasu zakończenia pełnego ładowania.
Do początkowego ładowania
Podczas przenoszenia danych ze źródła aplikacji SaaS możesz ustawić sposób wykonywania początkowego pełnego ładowania:
Użyj danych z pamięci podręcznej |
Ta opcja umożliwia korzystanie z buforowanych danych, które zostały odczytane podczas generowania metadanych z wybraną opcją Pełne skanowanie danych. Powoduje to mniejsze obciążenie związane z wykorzystaniem interfejsu API i limitami, ponieważ dane są już odczytywane ze źródła. Wszelkie zmiany od początkowego skanowania danych mogą zostać uwzględnione przez przechwytywanie zmian danych (CDC). |
Załaduj dane ze źródła |
Ta opcja wykonuje nowe ładowanie ze źródła danych. Ta opcja jest przydatna, jeśli:
|
Obsługa błędów
Błędy danych
Obsługa błędów danych jest dostępna wyłącznie w przypadku metody aktualizacji przechwytywania zmian danych (CDC).
W przypadku błędów obcinania danych: Wybierz, co ma się stać, gdy w jednym lub większej liczbie określonych rekordów nastąpi obcięcie. Możesz wybrać jedną z następujących opcji z listy:
- Ignoruj: Zadanie jest kontynuowane, a błąd jest ignorowany.
- Zawieś tabelę: Zadanie jest kontynuowane, ale dane z tabeli z rekordem z błędem są przenoszone do stanu błędu i nie są replikowane
- Zatrzymaj zadanie: Zadanie jest zatrzymywane i jest wymagana interwencja ręczna.
W przypadku innych błędów danych: Wybierz, co ma się stać, gdy w jednym lub większej liczbie określonych rekordów wystąpi błąd. Możesz wybrać jedną z następujących opcji z listy:
- Ignoruj: Zadanie jest kontynuowane, a błąd jest ignorowany.
- Zawieś tabelę: Zadanie jest kontynuowane, ale dane z tabeli z rekordem z błędem są przenoszone do stanu błędu i nie są replikowane
- Zatrzymaj zadanie: Zadanie jest zatrzymywane i jest wymagana interwencja ręczna.
Eskaluj obsługę błędów, kiedy inne błędy danych osiągną (na tabelę): Zaznacz to pole wyboru, aby eskalować obsługę błędów, gdy liczba błędów danych niespowodowanych przez obcięcia (na tabelę) osiągnie określoną wartość. Prawidłowe wartości są z zakresu 1–10 000.
Działanie eskalacji: Wybierz, co powinno się wydarzyć w przypadku eskalacji obsługi błędów. Należy pamiętać, że dostępne działania zależą od działania wybranego z listy rozwijanej W przypadku innych błędów danych opisanej powyżej.
-
Zawieś tabelę (domyślnie): Zadanie jest kontynuowane, ale dane z tabeli z rekordem z błędem są przenoszone do stanu błędu i nie są landed.
- Zatrzymaj zadanie: Zadanie jest zatrzymywane i jest wymagana interwencja ręczna.
Błędy tabeli
W przypadku napotkania błędu tabeli: Wybierz jedną z poniższych opcji z listy rozwijanej:
- Zawieś tabelę (domyślnie): Zadanie jest kontynuowane, ale dane z tabeli z rekordem z błędem są przenoszone do stanu błędu i nie są replikowane
- Zatrzymaj zadanie: Zadanie jest zatrzymywane i jest wymagana interwencja ręczna.
Eskaluj obsługę błędów, kiedy inne błędy tabeli osiągną (na tabelę): Zaznacz to pole wyboru, aby eskalować obsługę błędów, gdy liczba błędów tabeli (na tabelę) osiągnie określoną wartość. Prawidłowe wartości są z zakresu 1–10 000.
Działanie eskalacji: Zasada eskalacji błędów tabeli jest ustawiona na Zatrzymaj zadanie i nie można jej zmienić.
Środowiskowe
-
Maksymalna liczba ponownych prób: Wybierz tę opcję, a następnie określ maksymalną liczbę prób ponawiania zadania w razie wystąpienia błędu środowiskowego umożliwiającego odzyskanie. Po określonej liczbie ponownych prób zadanie zostaje zatrzymane i wymagana jest ręczna interwencja.
Aby nigdy nie ponawiać wykonywania zadania, usuń zaznaczenie pola wyboru lub określ „0”.
Aby ponawiać zadanie nieskończoną liczbę razy, określ „-1”.
-
Interwał między kolejnymi próbami (w sekundach): Użyj licznika, aby wybrać lub wpisać liczbę sekund oczekiwania przez system pomiędzy kolejnymi próbami wykonania zadania.
Prawidłowe wartości są z zakresu 0–2000.
-
- Zwiększ interwał ponawiania prób w przypadku długich przestojów: Zaznacz to pole wyboru, aby zwiększyć interwał ponownych prób w przypadku długich przestojów. Gdy ta opcja jest włączona, odstęp między kolejnymi próbami jest podwajany aż do osiągnięcia Maksymalnego interwału ponownych prób (i próby są kontynuowane zgodnie z określonym maksymalnym interwałem).
- Maksymalny interwał ponownych prób (w sekundach): Użyj licznika, aby wybrać, lub wpisz liczbę sekund oczekiwania pomiędzy kolejnymi próbami wykonania zadania, gdy włączona jest opcja Zwiększ interwał ponawiania prób w przypadku długich przestojów. Prawidłowe wartości są z zakresu 0–2000.
Dostrajanie przetwarzania zmian
Dostrajanie odciążania transakcji
-
Odciąż transakcje w toku na dysku, jeśli:
Dane transakcji są zwykle przechowywane w pamięci, dopóki nie zostaną w pełni zatwierdzone w źródle lub celu. Transakcje, które są większe niż przydzielona pamięć lub które nie zostaną zatwierdzone w określonym limicie czasu, zostaną jednak przeniesione na dysk.
- Całkowity rozmiar pamięci transakcji przekracza (MB): maksymalny rozmiar, jaki wszystkie transakcje mogą zajmować w pamięci przed przeniesieniem na dysk. Wartością domyślną jest 1024.
- Czas trwania transakcji przekracza (w sekundach): maksymalny czas, przez który każda transakcja może pozostać w pamięci przed przeniesieniem na dysk. Czas trwania jest liczony od momentu rozpoczęcia rejestrowania transakcji przez Qlik Talend Data Integration. Wartością domyślną jest 60.
Strojenie wsadowe
Niektóre ustawienia na tej karcie
Ustawienia, które są istotne dla wszystkich miejsc docelowych oprócz Qlik Cloud:
- Zastosuj zmiany wsadowe w interwałach:
-
Więcej niż: minimalny czas oczekiwania pomiędzy każdym zastosowaniem zmian wsadowych. Wartością domyślną jest 1.
Zwiększanie wartości Więcej niż zmniejsza częstotliwość stosowania zmian w miejscu docelowym, jednocześnie zwiększając rozmiar partii. Może to poprawić wydajność podczas stosowania zmian do docelowych baz danych zoptymalizowanych pod kątem przetwarzania dużych partii.
- Mniejszy niż: maksymalny czas oczekiwania pomiędzy każdym zastosowaniem zmian wsadowych (przed zadeklarowaniem limitu czasu). Innymi słowy jest to maksymalne akceptowalne opóźnienie. Wartością domyślną jest 30. Wartość ta określa maksymalny czas oczekiwania przed zastosowaniem zmian po osiągnięciu wartości Większy niż.
-
Wymuś zastosowanie partii, gdy pamięć przetwarzania przekroczy (MB): maksymalna ilość pamięci używana do wstępnego przetwarzania. Wartością domyślną jest 500 MB.
Aby ustawić maksymalny rozmiar partii, ustaw tę wartość na największą ilość pamięci, jaką możesz przydzielić zadaniu danych. Może to poprawić wydajność podczas stosowania zmian do docelowych baz danych zoptymalizowanych pod kątem przetwarzania dużych partii.
-
Stosuj zmiany w partiach jednocześnie do wielu tabel: wybranie tej opcji powinno poprawić wydajność podczas stosowania zmian z wielu tabel źródłowych.
-
Maksymalna liczba tabel: Maksymalna liczba tabel, w których można jednocześnie zastosować zmiany zbiorcze. Wartością domyślną jest pięć.
InformacjaTa opcja nie jest obsługiwana, kiedy jako platformy danych używa się Google BigQuery. -
-
Ogranicz liczbę zmian stosowanych na każdą instrukcję przetwarzania zmian do: wybierz tę opcję, aby ograniczyć liczbę zmian stosowanych na każdą instrukcję przetwarzania zmian. Wartością domyślną jest 10,000.
InformacjaTa opcja nie jest obsługiwana, kiedy jako platformy danych używa się Google BigQuery.
Ustawienia, które są istotne tylko dla Qlik Cloud:
-
Minimalna liczba zmian na transakcję: minimalna liczba zmian, które należy uwzględnić w każdej transakcji. Wartością domyślną jest 1000.
InformacjaZmiany są stosowane do miejsca docelowego, gdy liczba zmian jest równa lub większa od Minimalnej liczby zmian na transakcję LUB po osiągnięciu opisanej poniżej wartości Maksymalny czas dla transakcji wsadowych przed zastosowaniem (w sekundach) w zależności od tego, co nastąpi wcześniej. Ponieważ częstotliwość zmian stosowanych do miejsca docelowego jest kontrolowana przez te dwa parametry, zmiany w rekordach źródłowych mogą nie zostać natychmiast odzwierciedlone w rekordach docelowych.
- Maksymalny czas dla transakcji wsadowych przed zastosowaniem (w sekundach): maksymalny czas gromadzenia transakcji w partiach przed zadeklarowaniem upłynięcia limitu czasu. Wartością domyślną jest 1.
Interwał
-
Odczytuj zmiany co (w minutach)
Ustaw interwał w minutach między odczytami zmian ze źródła. Prawidłowy zakres wynosi od 1 do 1440.
InformacjaTa opcja jest dostępna tylko wtedy, gdy:
- Używanie funkcji Brama danych ruchu danych
- Umieszczanie danych ze źródeł aplikacji SaaS
- Zadanie jest zdefiniowane przy użyciu metody aktualizacji Przechwytywanie zmian danych (CDC)
Różnie ustawienia strojenia
- Rozmiar pamięci podręcznej instrukcji (liczba instrukcji): Maksymalna liczba przygotowanych instrukcji do przechowywania na serwerze w celu późniejszego wykonania (podczas stosowania zmian w miejscu docelowym). Wartością domyślną jest 50. Maksymalna liczba to 200.
-
Używaj instrukcji DELETE i INSERT podczas aktualizacji kolumny klucza głównego: Ta opcja wymaga włączenia pełnego rejestrowania dodatkowego w źródłowej bazie danych.
Ewolucja schematu
Wybierz sposób obsługi następujących typów zmian DDL w schemacie. Po zmianie ustawień ewolucji schematu należy ponownie przygotować zadanie. Poniższa tabela opisuje, które działania są dostępne w przypadku obsługiwanych zmian DDL.
Zmiana DDL | Zastosuj do celu | Ignoruj | Zawieś tabelę | Zatrzymaj zadanie |
---|---|---|---|---|
Dodanie kolumny | Tak | Tak | Tak | Tak |
Zmień nazwę kolumny | Nie | Nie | Tak | Tak |
Zmień nazwę tabeli | Nie | Nie | Tak | Tak |
Zmień typ danych kolumny | Nie | Tak | Tak | Tak |
Tworzenie tabeli
Jeśli użyto reguły wyboru, aby dodać zestawy danych pasujące do wzorca, nowe tabele spełniające ten wzorzec zostaną wykryte i dodane. |
Tak | Tak | Nie | Nie |
Podstawianie znaków
Możesz zastąpić lub usunąć znaki źródłowe w docelowej bazie danych i/lub znaki źródłowe, które nie są obsługiwane przez wybrany zestaw znaków.
-
Wszystkie znaki muszą być określone jako punkty kodu Unicode.
- Zastępowanie znaków będzie również wykonywane w tabelach kontrolnych.
-
Nieprawidłowe wartości zostaną oznaczone czerwonym trójkątem w prawym górnym rogu komórki tabeli. Wskazanie trójkąta kursorem myszy spowoduje wyświetlenie komunikatu o błędzie.
-
Wszelkie transformacje na poziomie tabeli lub globalne zdefiniowane dla zadania zostaną wykonane po zakończeniu zastępowania znaków.
-
Działania zastępowania zdefiniowane w tabeli Zastąp lub usuń znaki źródłowe są wykonywane przed działaniem zastępowania zdefiniowanym w tabeli Zastąp lub usuń znaki źródłowe nieobsługiwane przez wybrany zestaw znaków.
- Zastępowanie znaków nie obsługuje typów danych LOB.
Zastępowanie lub usuwanie znaków źródłowych
Użyj tabeli Zastąp lub usuń znaki źródłowe, aby zdefiniować zamienniki dla określonych znaków źródłowych. Może to być przydatne na przykład wtedy, gdy reprezentacja znaku w Unicode jest inna na platformie źródłowej i docelowej. Na przykład w systemie Linux znak minus w zestawie znaków Shift_JIS jest reprezentowany jako U+2212, ale w systemie Windows jest reprezentowany jako U+FF0D.
Cel | Działanie |
---|---|
Zdefiniowanie działań zastępowania |
|
Edytowanie określonego znaku źródłowego lub docelowego |
Kliknij na końcu wiersza i wybierz pozycję Edytuj. |
Usunięcie wpisów z tabeli |
Kliknij na końcu wiersza i wybierz pozycję Usuń. |
Zastępowanie lub usuwanie znaków źródłowych nieobsługiwanych przez wybrany zestaw znaków
Użyj tabeli Nieobsługiwane znaki źródłowe według zestawu znaków, aby zdefiniować pojedynczy znak zastępczy dla wszystkich znaków nieobsługiwanych przez wybrany zestaw znaków.
Cel | Działanie |
---|---|
Zdefiniowanie lub edycja działania zastępowania |
|
Wyłączenie działania zastępowania. |
Wybierz pusty wpis z listy rozwijanej Zestaw znaków. |
Więcej opcji
Te opcje nie są widoczne w interfejsie, ponieważ dotyczą tylko określonych wersji lub środowisk. W związku z tym nie należy ustawiać tych opcji, chyba że zostanie to wyraźnie zalecone przez Pomoc techniczną Qlik lub dokumentację produktu.
Aby ustawić opcję, po prostu skopiuj ją do pola Dodaj nazwę cechy i kliknij Dodaj. Następnie ustaw wartość lub włącz opcję zgodnie z otrzymaną instrukcją.
Planowanie zadań CDC podczas pracy bez bramy Brama danych ruchu danych
Brama Brama danych ruchu danych nie jest obsługiwana w przypadku subskrypcji Qlik Talend Cloud Starter i jest opcjonalna w przypadku pozostałych poziomów subskrypcji. Podczas pracy bez bramy Brama danych ruchu danych aktualność danych w miejscu docelowym można zachować, wyznaczając interwał planowania. Harmonogram decyduje o tym, jak często docelowe zestawy danych będą aktualizowane zmianami w źródłowych zestawach danych. Podczas gdy harmonogram decyduje o częstotliwości aktualizacji, typ zestawu danych decyduje o metodzie aktualizacji. Jeśli źródłowe zestawy danych obsługują przechwytywanie zmian danych (CDC), tylko zmiany w danych źródłowych zostaną zreplikowane i zastosowane w odpowiednich tabelach docelowych. Jeśli źródłowe zestawy danych nie obsługują CDC (na przykład widoki), zmiany zostaną zastosowane przez ponowne załadowanie wszystkich danych źródłowych do odpowiednich tabel docelowych. Jeśli niektóre źródłowe zestawy danych obsługują CDC, a inne nie, zostaną utworzone dwa osobne zadania podrzędne: jedno do przeładowania zestawów danych, które nie obsługują CDC, a drugie do przechwycenia zmian w zestawach danych, które obsługują CDC. W takim przypadku w celu zapewnienia spójności danych zdecydowanie zaleca się ustawienie tego samego harmonogramu dla obu zadań podrzędnych.
Informacje na temat minimalnych interwałów planowania według typu źródła danych i poziomu subskrypcji zawiera temat Minimalne dozwolone interwały planowania.
Aby zmienić harmonogram:
Otwórz projekt danych i wykonaj jedną z następujących czynności:
- W widoku zadań kliknij na zadaniu danych i wybierz Planowanie.
- W widoku potoku kliknij na zadaniu danych i wybierz Planowanie.
- Otwórz zadanie umieszczania i kliknij przycisk Planowanie na pasku zadań.
- Zmień ustawienia harmonogramu odpowiednio do potrzeb, a następnie kliknij OK.