Strumień danych AWS S3
Połącz się ze strumieniem danych AWS S3, aby używać go jako źródła danych w projektach Qlik Open Lakehouse. Połączenia ze strumieniem danych AWS S3 mogą być używane tylko z zadaniem umieszczania strumieniowego i zadaniem transformacji strumieniowej.
W przeciwieństwie do tradycyjnego wsadowego ETL z S3, ta implementacja traktuje S3 jako źródło strumieniowe z ciągłym monitorowaniem i pozyskiwaniem danych niemal w czasie rzeczywistym. Można skonfigurować strumienie, aby automatycznie pozyskiwały dane z zasobników S3, gdy pojawią się nowe pliki. Strumień danych AWS S3 umożliwia konfigurowanie potoków strumieniowego przesyłania danych z S3, w tym dopasowywanie wzorców plików, konfigurację schematu i opcje początkowego uzupełniania danych. Strumień stale monitoruje S3 i pozyskuje nowe dane niemal w czasie rzeczywistym (w ciągu kilku minut) i jest idealny dla danych organizacyjnych, takich jak logi, zdarzenia, eksporty z systemów zewnętrznych lub strumienie danych partnerów.
Wymagania wstępne
Aby utworzyć połączenie ze strumieniem danych AWS S3, wymagane są następujące elementy:
-
Jeśli używasz uwierzytelniania opartego na rolach, aby uzyskać dostęp do zasobnika, potrzebujesz:
-
Uprawnienia do uzyskania dostępu do integracji sieciowej, której chcesz użyć dla połączenia.
-
Rola ARN, lub można ją utworzyć podczas procesu konfiguracji. Klaster integracji sieciowej musi mieć dostęp do konta ARN S3.
-
-
Jeśli używasz uwierzytelniania kluczem dostępu, aby połączyć się z zasobnikiem, potrzebujesz:
-
Twój identyfikator klucza dostępu AWS.
-
Twój tajny klucz dostępu AWS.
-
Ustawianie właściwości połączenia strumienia danych S3
Aby skonfigurować połączenie S3, wykonaj następujące czynności:
-
W obszarze Połączenia kliknij Utwórz połączenie.
-
Wybierz Przestrzeń, w której chcesz utworzyć połączenie, lub wybierz Utwórz nową przestrzeń danych.
-
Wybierz S3 z listy Nazwa łącznika lub użyj pola Wyszukaj. Upewnij się, że Typ to Źródło, a Kategoria to Przesyłanie strumieniowe.
-
W polu Identyfikator URI S3 wprowadź identyfikator URI dla zasobnika S3 w formacie s3://<bucket-name>/<directory-name>.
Więcej informacji zawiera temat Przykłady składni.
-
W polu Typ uwierzytelniania wybierz sposób połączenia i skonfiguruj ustawienia.
Oparte na rolach
Wykonaj następujące kroki, aby użyć uwierzytelniania opartego na rolach.
Utwórz rolę ARN
-
Integracja sieciowa: Wybierz integrację sieciową z listy.
-
Nazwa ARN roli: Wprowadź nazwę ARN roli utworzoną w AWS. Powinno to być w formacie arn:aws:iam::{account number}:role/{role name}.
Utwórz rolę AWS
Postępuj zgodnie z instrukcjami, aby utworzyć rolę AWS:
-
Utwórz rolę
-
W Konsoli AWS, przejdź do IAM.
-
W sekcji Role kliknij przycisk Utwórz rolę i skonfiguruj ją:
-
Typ zaufanego podmiotu: wybierz opcję Niestandardowa zasada zaufania.
-
Instrukcja: Skopiuj zasady zaufanej jednostki utworzone w Utwórz rolę AWS w Qlik Cloud do okienka kodu w AWS.
-
Utwórz rolę.
-
-
Utwórz zasadę wbudowaną
-
W konsoli AWS, w Rolach, kliknij rolę utworzoną w kroku 1.
-
W Zasady uprawnień kliknij Dodaj uprawnienia > Utwórz wbudowaną zasadę.
-
Skopiuj kod w Qlik Cloud i wklej go do zasad w AWS.
-
-
Kopiuj rolę ARN
-
Na stronie Roles w konsoli AWS znajdź wartość ARN w sekcji Summary.
-
Skopiuj ARN i wklej go w roli ARN w Qlik Cloud.
-
Klucz dostępu
Wykonaj następujące kroki, aby użyć klucza dostępu do uwierzytelnienia połączenia:
-
Klucz dostępu: Wprowadź swój unikalny identyfikator klucza dostępu AWS, aby użyć go do uwierzytelnienia.
-
Klucz tajny: Wprowadź swój tajny klucz dostępu AWS, aby użyć go z kluczem dostępu.
- Utwórz politykę
-
W Konsoli AWS, przejdź do IAM.
-
Przejdź do Polityki> Utwórz politykę.
-
W Qlik Cloud, w oknie dialogowym Utwórz rolę AWS, skopiuj politykę.
-
W AWS, w Edytorze polityk, wklej politykę.
-
-
Przypisz nowe zasady do użytkownika
-
Przypisz nowe zasady do użytkownika, któremu chcesz zapewnić dostęp.
-
Utwórz połączenie
Po skonfigurowaniu metody zabezpieczeń wykonaj następujące kroki, aby utworzyć połączenie:
-
W Nazwa wprowadź nazwę wyświetlaną dla połączenia, na przykład My AWS S3 Streaming Source connection.
-
Kliknij Testuj połączenie, aby zweryfikować poświadczenia.
-
Kliknij Utwórz.
Przykłady składni
| Składnia | Opis | Przykład |
|---|---|---|
| Tekst | Ogólne dane wejściowe tekstowe/ciąg znaków na podstawie wytycznych AWS dotyczących nazewnictwa obiektów Amazon S3. | s3://MyS3Bucket/MyDir/MyFile.csv |
| Symbol wieloznaczny | Znak *, który działa jako „symbol wieloznaczny” w ścieżce/nazwie pliku. Użycie symbolu wieloznacznego w ścieżce obejmuje wszystkie foldery i podfoldery z tej ścieżki. | myS3Bucket/myDir/* myS3Bucket/myDir/*.csv myS3Bucket/myDir/*_customers.csv myS3Bucket/regions/*/*_customers.csv |
| Wzór | Składnia wzorca daty wskazuje lokalizację wzorca daty w nazwie pliku. | myS3Bucket/myDir/<yyyy>_<MM>_<dd>_<HH>_<mm>_orders.csv myS3Bucket/myDir/<yyyy>/<MM>/<dd>/<HH>_<mm>_orders.csv |
Zasady nazewnictwa docelowego zestawu danych
Nazwa docelowego zestawu danych musi:
-
Być unikatowa i nie może być już używana przez inne zestawy danych w katalogu docelowym.
-
Być zgodna z regułami nazewnictwa katalogu docelowego:
-
Zaczynać się od litery (A–Z, a–z) lub podkreślenia (_).
-
Zawierać tylko litery, podkreślenia, cyfry (0–9) lub znak dolara ($).
-
Nie przekraczać 255 znaków, wliczając spacje.
-