Amazon Redshift
Możesz użyć Amazon Redshift jako docelowa platforma danych w potoku danych lub zadaniu replikacji. W potoku danych można wykonywać różne operacje ELT na platformie docelowej, w tym przechowywanie danych, przekształcanie danych, tworzenie data martów oraz rejestrowanie danych. Zadanie replikacji polega natomiast na replikacji danych bezpośrednio z systemu źródłowego do systemu docelowego z podstawowymi możliwościami transformacji, ale bez obsługi operacji ELT.
Konfigurowanie Amazon Redshift jako miejsca docelowego obejmuje:
- Spełnienie warunków wstępnych
- Konfiguracja połączenia z obszarem tymczasowym w chmurze (Amazon S3). Nie jest to wymagane, jeśli rejestrujesz istniejące dane.
- Konfiguracja połączenia z Amazon Redshift
Konfiguracja obszaru tymczasowego w chmurze
Konfiguracja połączenia z Amazon Redshift wymaga również skonfigurowania łączności z obszarem tymczasowym w chmurze Amazon S3, w którym dane i zmiany są umieszczane przed zastosowaniem i zapisaniem.
Informacje na temat konfigurowania połączenia z Amazon S3 zawiera temat Amazon S3.
Konfiguracja połączenia z Amazon Redshift
Po podaniu ustawień obszaru tymczasowego wykonaj następujące czynności:
-
W obszarze Połączenia kliknij Utwórz połączenie.
-
Wybierz łącznik miejsca docelowego Amazon Redshift, a następnie podaj następujące ustawienia:
Miejsce docelowe danych
Brama danych
Brama Brama danych ruchu danych jest wymagana tylko wtedy, gdy docelowa baza danych nie jest dostępna z Qlik Cloud i można uzyskać do niej dostęp tylko za pośrednictwem łącza prywatnego (na przykład jeśli znajduje się lokalnie za zaporą lub w wirtualnej chmurze prywatnej). W takim przypadku wybierz tę bramę Brama danych ruchu danych, przez którą chcesz uzyskiwać dostęp do docelowej bazy danych.
W zależności od zastosowania będzie to ta sama Brama danych ruchu danych, która została wdrożona do przenoszenia danych ze źródła, lub inna.
Informacje na temat zastosowań związanych z Brama danych ruchu danych zawierają tematy Kiedy jest wymagana brama Brama danych ruchu danych? i Typowe zastosowania.
Jeśli docelowa baza danych jest bezpośrednio dostępna z Qlik Cloud, wybierz Brak.
Właściwości połączenia
-
Serwer: nazwa hosta serwera bazy danych Amazon Redshift.
-
Port: port, przez który chcesz uzyskać dostęp do swojej bazy danych Amazon Redshift. Wartością domyślną jest 5439.
Właściwości konta
Nazwa użytkownika i Hasło: nazwa użytkownika i hasło użytkownika uprawnionego do dostępu do bazy danych Amazon Redshift.
Właściwości bazy danych
-
Nazwa bazy danych: istnieją dwie metody określania bazy danych:
- Metoda 1 — wybór z listy: Kliknij Load databases, a następnie wybierz bazę danych.
- Metoda 2 — ręcznie: Wybierz pozycję Wprowadź nazwę bazy danych ręcznie, a następnie wprowadź nazwę bazy danych.
Właściwości wewnętrzne
Właściwości wewnętrzne są przeznaczone dla specjalnych przypadków, w związku z czym nie są ukazywane w oknie dialogowym. Należy ich używać tylko na polecenie Qlik Pomocy technicznej.
Użyj przycisków i znajdujących się po prawej stronie pól, aby dodać lub usunąć właściwości zgodnie z potrzebą.
Nazwa
Nazwa wyświetlana dla połączenia.
Wymagania wstępne
Wymagane uprawnienia
Przyznaj następujące uprawnienia do bazy danych Redshift:
- Nadaj uprawnienie COPY
- Nadaj uprawnienie INSERT
- Nadaj uprawnienie UPDATE
- Nadaj uprawnienie DELETE
- Nadaj uprawnienie SELECT
- Tworzenie schematu (wymagane tylko wtedy, gdy schematy nie istnieją i chcesz, by funkcja Qlik Talend Data Integration je utworzyła)
- Nadaj uprawnienie CREATE TABLE
- Nadaj uprawnienie ALTER TABLE
- Nadaj uprawnienie DROP TABLE
Konfiguracja sterowników
Sterownik jest wymagany tylko do uzyskiwania dostępu za pośrednictwem Brama danych ruchu danych. W takim przypadku należy zainstalować sterownik na urządzeniu Brama danych ruchu danych.
Sterownik driver można zainstalować za pomocą Narzędzia do instalacji sterowników (zalecane) lub ręcznie. Instalacji ręcznej należy próbować tylko w mało prawdopodobnym przypadku wystąpienia problemu z Narzędziem do instalacji sterowników.
Używanie Narzędzia do instalacji sterowników w celu instalacji sterownika
W tej sekcji opisano, jak zainstalować wymagany driver. Proces ten obejmuje uruchomienie skryptu, który automatycznie pobierze, zainstaluje i skonfiguruje wymagany driver. W razie potrzeby można także uruchamiać skrypty, aby zaktualizować i odinstalować driver.
Przygotowanie instalacji
-
Na serwerze bramy Ruch danych musi być zainstalowane środowisko Python 3.6 lub nowsze.
Środowisko Python jest preinstalowane w większości dystrybucji systemu Linux. Aby sprawdzić, która wersja środowiska Pythona jest zainstalowana w Twoim systemie, uruchom następujące polecenie:
python3 --version
Instalowanie aplikacji driver
Aby pobrać i zainstalować driver:
-
Zatrzymaj usługę Data Movement gateway:
sudo systemctl stop repagent
-
Opcjonalnie potwierdź, że usługa została zatrzymana:
sudo systemctl status repagent
Status powinien być następujący:
Active: inactive (dead) since <timestamp> ago
-
Na urządzenie bramy Ruch danych zmień katalog roboczy na:
opt/qlik/gateway/movement/drivers/bin
-
Wykonaj następujące polecenie:
Składnia:
./install redshift
Jeśli driver nie może zostać pobrany (ze względu na ograniczenia dostępu lub problemy techniczne), zostanie wyświetlony komunikat informujący, skąd pobrać driver i dokąd go skopiować na urządzenie bramy Ruch danych. Po wykonaniu tej czynności ponownie uruchom polecenie install redshift.
W przeciwnym razie zostanie wyświetlona umowa licencyjna dotycząca driver.
-
Wykonaj jedną z poniższych czynności:
- Naciśnij klawisz [Enter] wielokrotnie, aby powoli przewinąć treść umowy licencyjnej.
- Naciśnij klawisz spacji wielokrotnie, aby szybko przewinąć treść umowy licencyjnej.
- Naciśnij klawisz „q”, aby zamknąć tekst umowy licencyjnej i wyświetlić opcje jej akceptacji.
-
Wykonaj jedną z poniższych czynności:
- Wpisz „y” i naciśnij klawisz [Enter], aby zaakceptować umowę licencyjną i rozpocząć instalację.
- Wpisz „n” i naciśnij klawisz [Enter], aby odrzucić umowę licencyjną i zakończyć instalację.
-
Wpisz „v” i naciśnij klawisz [Enter], aby ponownie wyświetlić umowę licencyjną.
-
Poczekaj na zakończenie instalacji (wskazane komunikatem „Ukończono!”), a następnie uruchom usługę Data Movement gateway:
sudo systemctl start repagent
-
Opcjonalnie potwierdź, że usługa została uruchomiona:
sudo systemctl status repagent
Status powinien być następujący:
Active: active (running) since <timestamp> ago
Zostanie zainstalowany driver.
driver — aktualizacja
Uruchom polecenie aktualizacji, jeśli chcesz odinstalować driver w poprzedniej wersji, zanim zainstalujesz dostarczony driver.
Aby pobrać i zaktualizować driver:
-
Zatrzymaj usługę Data Movement gateway:
sudo systemctl stop repagent
-
Opcjonalnie potwierdź, że usługa została zatrzymana:
sudo systemctl status repagent
Status powinien być następujący:
Active: inactive (dead) since <timestamp> ago
-
Na urządzenie bramy Ruch danych zmień katalog roboczy na:
opt/qlik/gateway/movement/drivers/bin
-
Wykonaj następujące polecenie:
Składnia:
./update redshift
Jeśli driver nie może zostać pobrany (ze względu na ograniczenia dostępu lub problemy techniczne), zostanie wyświetlony komunikat informujący, skąd pobrać driver i dokąd go skopiować na urządzenie bramy Ruch danych. Po wykonaniu tej czynności ponownie uruchom polecenie update redshift.
W przeciwnym razie zostanie wyświetlona umowa licencyjna dotycząca driver.
-
Wykonaj jedną z poniższych czynności:
- Naciśnij klawisz [Enter] wielokrotnie, aby powoli przewinąć treść umowy licencyjnej.
- Naciśnij klawisz spacji wielokrotnie, aby szybko przewinąć treść umowy licencyjnej.
- Naciśnij klawisz „q”, aby zamknąć tekst umowy licencyjnej i wyświetlić opcje jej akceptacji.
-
Wykonaj jedną z poniższych czynności:
- Wpisz „y” i naciśnij klawisz [Enter], aby zaakceptować umowę licencyjną i rozpocząć instalację.
- Wpisz „n” i naciśnij klawisz [Enter], aby odrzucić umowę licencyjną i zakończyć instalację.
- Wpisz „v” i naciśnij klawisz [Enter], aby wyświetlić umowę licencyjną od początku.
-
Poczekaj na zakończenie instalacji (wskazane komunikatem „Ukończono!”), a następnie uruchom usługę Data Movement gateway:
sudo systemctl start repagent
-
Opcjonalnie potwierdź, że usługa została uruchomiona:
sudo systemctl status repagent
Status powinien być następujący:
Active: active (running) since <timestamp> ago
Stary driver zostanie odinstalowany, a zainstalowany zostanie nowy driver.
driver — odinstalowywanie
Uruchom polecenie odinstalowania, jeśli chcesz odinstalować driver.
Aby odinstalować driver:
-
Zatrzymaj wszystkie zadania skonfigurowane do korzystania z tego łącznika.
-
Na urządzenie bramy Ruch danych zmień katalog roboczy na:
opt/qlik/gateway/movement/drivers/bin
-
Wykonaj następujące polecenie:
Składnia:
./uninstall redshift
Sterownik driverzostanie odinstalowany.
Ręczne instalowanie sterownika
Sterownik driver należy instalować ręcznie tylko wtedy, gdy automatyczna instalacja nie zakończyła się pomyślnie.
-
Zatrzymaj usługę Data Movement gateway:
sudo systemctl stop repagent
-
Opcjonalnie potwierdź, że usługa została zatrzymana:
sudo systemctl status repagent
-
Pobierz i zainstaluj narzędzia klienta Linux SQL niezbędne do połączenia z klastrem Amazon Redshift. Brama danych Qlik — ruch danych wymaga sterownika Amazon Redshift ODBC (x64) tylko w wersji 1.4.65.1000.
Pobierz sterownik z:
Po zainstalowaniu sterownika ODBC zmodyfikuj plik /etc/odbcinst.ini następująco:
[ODBC Drivers]
Amazon Redshift (x64)=Installed
I:
[Amazon Redshift (x64)]
Description=Amazon Redshift ODBC Driver (64-bit)
Driver=/opt/amazon/redshiftodbc/lib/64/libamazonredshiftodbc64.so
-
Uruchom usługę Data Movement gateway:
sudo systemctl start repagent
-
Opcjonalnie potwierdź, że usługa została uruchomiona:
sudo systemctl status repagent
Status powinien być następujący:
Active: active (running) since <timestamp> ago
Status powinien być następujący:
Active: inactive (dead) since <timestamp> ago
Listę sterowników obsługiwanych przez Amazon Redshift można znaleźć pod adresem http://docs.aws.amazon.com/redshift/latest/mgmt/configure-odbc-connection.html.
Port
Port 5439 (klaster Amazon Redshift) musi być otwarty na potrzeby komunikacji wychodzącej.
Certyfikat urzędu certyfikacji
Data Movement gateway łączy się z usługą AWS przy użyciu protokołu SSL. To wymaga, aby odpowiedni certyfikat urzędu certyfikacji znajdował się na maszynie Data Movement gateway, w przeciwnym razie połączenie się nie powiedzie. Celem certyfikatu urzędu certyfikacji jest uwierzytelnienie własności certyfikatu serwera AWS.
Upewnij się, że wymagany certyfikat urzędu certyfikacji znajduje się w następującej lokalizacji na komputerze z systemem Linux:
/etc/pki/tls/certs/ca-bundle.crt
Jeśli nie ma certyfikatu, najłatwiejszym rozwiązaniem jest skopiowanie pakietu certyfikatów z innego komputera z systemem Linux.
Ogólne wymagania wstępne i uwagi
-
Jeżeli źródło danych zawiera 4-bajtowe znaki emoji, użyj transformacji, aby przekonwertować typ danych z WSTRING(n) na WSTRING (n*2).
-
Ustawienia czasu i strefy czasowej na komputerze z usługą Data Movement gateway muszą być dokładne. Jest to wymagane w celu zapewniania:
- Właściwej synchronizacji zadań pełnego ładowania i CDC
- Korelacji czasu dziennika transakcji z rzeczywistym czasem
-
Nie można wczytywać do Usługi analiz Qlik Cloud widoków na żywo i widoków historii ze zbiorów danych utworzonych w miejscu docelowym Amazon Redshift przez Qlik Talend Data Integration.
Ograniczenia i uwagi
-
Łącznik Amazon Redshift obsługuje tylko standardowe uwierzytelnianie (z nazwą użytkownika i hasłem).
Typy danych
Następująca tabela pokazuje typy danych Amazon Redshift, które są obsługiwane podczas używania Qlik Cloud, i domyślne mapowanie z typów danych Qlik Cloud.
Informacje o natywnym typie danych są zachowywane i wyświetlane w widokach zestawu danych w kolumnie Natywny typ danych. Jeśli kolumna nie jest widoczna, otwórz selektor kolumn w widoku zestawu danych i wybierz kolumnę Natywny typ danych.
Typy danych Qlik Cloud | Typy danych Amazon Redshift |
---|---|
BOOLEAN |
BOOLEAN |
BYTES |
VARBINARY(długość) |
DATE |
DATE |
TIME |
VARCHAR (20) |
DATETIME |
Jeżeli skala => 0 i =< 6, to: TIMESTAMP Jeżeli skala => 7 i =< 12, to: VARCHAR (37) |
INT1 |
INT2 |
INT2 |
INT2 |
INT4 |
INT4 |
INT8 |
INT8 |
NUMERIC |
Jeżeli skala => 0 i =< 37, to: NUMERIC (precyzja, skala) Jeżeli skala => 38 i =< 127, to: VARCHAR (długość) |
REAL4 |
FLOAT4 |
REAL8 |
FLOAT8 |
STRING |
Jeżeli długość => 1 i =< 65535, to: VARCHAR (długość w bajtach) Jeżeli długość => 65535 i =< 2147483647, to: VARCHAR (65535) |
UINT1 |
INT2 |
UINT2 |
INT4 |
UINT4 |
INT8 |
UINT8 |
NUMERIC (20,0) |
WSTRING |
Jeżeli długość => 1 i =< 21845, to: NVARCHAR (długość w bajtach) Jeżeli długość => 21846 i =< 2147483647, to: VARCHAR (65535) |
BLOB |
VARBYTE (16777216) |
NCLOB |
VARCHAR (65535) |
CLOB |
VARCHAR (65535) |
Następujące typy danych SQL Server nie są obsługiwane. Dane nie zostaną odczytane.
-
HLLSKETCH
Następujące typy danych są konwertowane na VARCHAR (65535):
-
GEOGRAPHY
-
GEOMETRY