Amazon S3

Amazon Simple Storage Service (Amazon S3) to usługa obiektowej pamięci masowej, która oferuje wiodącą w branży skalowalność, dostępność danych, bezpieczeństwo i wydajność.

Ogólne informacje o tym łączniku, w tym przydatne linki i obsługiwane cechy.

Cecha/możliwość	Szczegóły obsługi
Wspierane projekty Qlik Talend Data Integration	Tylko projekty replikacji. Projekty potoków danych nie są obsługiwane.
Metody aktualizacji celu	Zadania replikacji: Zastosuj zmiany Zapisz zmiany Umieszczanie danych w zadaniach jeziora danych: Przechwytywanie zmian danych (CDC)
Zarządzanie metadanymi	Ręczne tworzenie metadanych nie jest wymagane.
Ewolucja schematu	Obsługiwana jest tylko operacja Zmień typ danych kolumny.
Replikacja kolumn LOB (NCLOB, CLOB i BLOB)	Brak obsługi.
Zaplanowane CDC	Wymagane. W ten sposób cel jest na bieżąco informowany o zmianach w źródle. W kwestii zadań replikacji zobacz Harmonogramowanie zadań W sprawie zadań umieszczania w jeziorze zobacz Harmonogramowanie CDC dla zadań umieszczania w jeziorze danych
Powiadomienia	Częściowa obsługa Ustawianie powiadomień o zmianach w działaniu
Monitorowanie	Tylko CDC, ponieważ pełne ładowanie jest nieodpowiednie dla tego łącznika. Monitorowanie pojedynczego zadania danych
Automatyczne eliminowanie zagnieżdżeń zawartości kolumn JSON	Brak obsługi. Ładunki kolumn JSON w źródłowych zestawach danych nie są automatycznie rozwijane w docelowych.

Przygotowanie do uwierzytelnienia

Aby uzyskać dostęp do swoich danych, musisz uwierzytelnić połączenie za pomocą danych logowania do swojego konta.

Upewnij się, że używane konto ma uprawnienia do odczytu interesujących Cię tabel.

Aby połączyć się z Amazon S3, potrzebne są uprawnienia w AWS Identity Access Management (IAM), które pozwalają na tworzenie zasad i ról oraz wiązanie zasad z rolami. Jest to wymagane do przyznania uprawnień do zasobnika S3:

Tworzenie zasady IAM.
Tworzenie roli IAM.

Tworzenie zasady IAM

Zasada IAM to język zasad dostępu oparty na JSON, służący do zarządzania uprawnieniami do zasobów zasobnika.

Uprawnienia Amazon S3
Nazwa uprawnienia	Operacja	Opis
s3:GetObject	Obiekt GET	Umożliwia pobieranie obiektów z Amazon S3.
s3:GetObject	Obiekt HEAD	Umożliwia pobieranie metadanych z obiektu bez zwracania samego obiektu.
s3:ListBucket	GET Zasobnik (lista obiektów)	Umożliwia zwrot niektórych lub wszystkich (do 1000) obiektów znajdujących się w zasobniku.
s3:ListBucket	zasobnik HEAD	Służy do określania, czy zasobnik istnieje i czy dostęp do niego jest dozwolony.

Aby utworzyć zasadę IAM:

W AWS przejdź do usługi IAM, klikając Usługi i wpisując IAM.
Kliknij IAM, gdy pojawi się w wynikach.
Kliknij opcję Zasady w menu po lewej stronie.
Kliknij przycisk Utwórz zasadę.
Na stronie Utwórz zasadę kliknij kartę JSON.
Zaznacz wszystkie elementy znajdujące się w polu tekstowym i usuń je.

W polu tekstowym wklej poniższy kod JSON i zastąp MyBucketName nazwą swojego zasobnika:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

Kliknij opcję Przejrzyj zasadę.
Na stronie Przejrzyj zasadę nadaj zasadzie nazwę. Na przykład: qlik_amazon_s3.
Kliknij przycisk Utwórz zasadę.

Tworzenie roli IAM

Aby wykonać ten krok, należy mieć następujące uprawnienia AWS IAM: CreateRole i AttachRolePolicy. Więcej informacji zawiera dokumentacja Amazon.

Jeśli tworzysz wiele integracji Amazon S3, musisz wykonać ten krok dla każdej połączonej integracji.

W AWS przejdź do strony Role IAM.
Kliknij Utwórz rolę.
Na stronie Utwórz rolę:
1. W sekcji Wybierz typ zaufanego podmiotu kliknij opcję Inne konto AWS.
2. W polu ID konta wklej 338144066592.
3. W sekcji Opcje zaznacz pole wyboru Wymagaj zewnętrznego ID.
4. W wyświetlonym polu Zewnętrzny ID wklej qlik_connection_<tenant-id> i zastąp <tenant-id> swoim identyfikatorem dzierżawy.
  Aby znaleźć identyfikator dzierżawy, zobacz Znajdowanie informacji o dzierżawie.
5. Kliknij przycisk Dalej: Uprawnienia.
Na stronie Dołącz uprawnienia:
1. Wyszukaj zasadę utworzoną w sekcji Tworzenie zasady IAM.
2. Kiedy ją znajdziesz, zaznacz pole obok niej w tabeli.
3. Kliknij przycisk Dalej: Tagi.
Jeśli chcesz wprowadzić jakiekolwiek tagi, zrób to na stronie Dodaj tagi. W przeciwnym razie kliknij Dalej: Przegląd.
Na stronie Przegląd:
1. W polu Nazwa roli wklej qlik_s3_<tenant-id> i zastąp <tenant-id> swoim identyfikatorem dzierżawy.
  Aby znaleźć identyfikator dzierżawy, zobacz Znajdowanie informacji o dzierżawie.
2. W polu Opis roli wprowadź opis. Na przykład: Qlik role for Amazon S3 integration.
3. Kliknij przycisk Utwórz rolę.

Definiowanie wzorca wyszukiwania

Pole Wzorzec wyszukiwania definiuje kryteria wyszukiwania, których Qlik powinien używać do wybierania i replikacji plików. To pole akceptuje wyrażenia regularne, które mogą być używane do dołączania pojedynczego pliku lub wielu plików.

Podczas tworzenia wzorca wyszukiwania należy mieć na uwadze następujące kwestie:

W przypadku dołączania wielu plików dla jednej tabeli każdy plik powinien mieć te same wartości wiersza nagłówka.
Znaki specjalne, takie jak kropki (.) mają specjalne znaczenie w wyrażeniach regularnych. Aby je dokładnie dopasować, należy zastosować symbole zastępcze. Na przykład: .\
Qlik używa Pythona do wyrażeń regularnych, które mogą różnić się składnią od innych odmian. Spróbuj użyć PyRegex do przetestowania wyrażeń przed zapisaniem integracji.
Wzorce wyszukiwania Parquet (.parquet) i Arvo (.arvo) są również obsługiwane.
Wzorce wyszukiwania powinny uwzględniać sposób aktualizacji danych w plikach. Rozważmy następujące przykłady:

Scenariusz	Pojedynczy plik, okresowo aktualizowany	Wiele plików generowanych codziennie
Jak dokonywane są aktualizacje	Pojedynczy plik JSONL jest okresowo aktualizowany o nowe i zaktualizowane dane klientów.	Codziennie tworzony jest nowy plik CSV zawierający nowe i zaktualizowane dane kontenera. Stare pliki nigdy nie są aktualizowane po utworzeniu.
Nazwa pliku	`customers.jsonl`	`customers-[STRING].csv`gdzie `[STRING]` jest unikalnym, losowym ciągiem znaków
Wzorzec wyszukiwania	Ponieważ zawsze będzie tylko jeden plik, można wprowadzić dokładną nazwę pliku w zasobniku S3: `customers\.jsonl`	Aby zapewnić identyfikację nowych i zaktualizowanych plików, należy wprowadzić wzorzec wyszukiwania, który będzie pasował do wszystkich plików zaczynających się od `customers`, niezależnie od ciągu znaków w nazwie pliku: `(customers-).*\.csv`
Pasuje do	`customer.jsonl`, dokładnie	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` itp.

Wymagania dotyczące plików

Nagłówek pierwszego wiersza (tylko pliki CSV)	Każdy plik musi mieć nagłówek pierwszego wiersza zawierający nazwy kontenerów. Pierwszy wiersz w dowolnym pliku jest uważany za wiersz nagłówka i będzie prezentował te wartości jako kolumny dostępne do wyboru. Pliki z tymi samymi wartościami nagłówka pierwszego wiersza, jeśli w tabeli znajduje się wiele plików. Integracja Amazon S3 umożliwia mapowanie kilku plików do jednej tabeli docelowej. Wartości wiersza nagłówka są używane do określania schematu tabeli. Aby uzyskać najlepsze wyniki, każdy plik powinien mieć te same wartości wierszy nagłówka. Różni się to od konfigurowania wielu tabel. Przykłady można znaleźć w sekcji Definiowanie wzorca wyszukiwania.
Typy plików	CSV (`.csv`) Tekstowy (`.txt`) JSONL (`.jsonl`) Parquet (`.parquet`) Arvo (`.arvo`) Pliki Arvo muszą zawierać schemat, aby były obsługiwane.
Rodzaje kompresji	Pliki te muszą być poprawnie skompresowane, w przeciwnym razie podczas ich wyodrębniania pojawią się błędy. skompresowane pliki gzip (`.gz`)
Znaki rozdzielające (tylko pliki CSV)	Przecinek (`,`) Tabulator (`/t`) Pionowa kreska (`\|`) Średnik (`;`)
Kodowanie znaków	UTF-8 (tylko `.csv`, `.txt` i `.jsonl`) InformacjaPliki `.parquet` i `.arvo` są nieprzetworzonymi plikami binarnymi.

Tworzenie połączenia

Więcej informacji zawiera temat Łączenie się z aplikacjami SaaS.

Wprowadź wymagane właściwości połączenia.
Podaj nazwę połączenia w polu Nazwa połączenia.
Wybierz opcję Otwórz metadane połączenia, aby zdefiniować metadane połączenia po jegu utworzeniu.
Kliknij polecenie Utwórz.

Ustawienia połączenia
Ustawienie	Opis
Brama danych	Wybierz bramę Brama danych ruchu danych, jeżeli jest wymagana do danego zastosowania. Informacja To pole jest niedostępne w subskrypcji Qlik Talend Cloud Starter, ponieważ brama Brama danych ruchu danych jest w niej nieobsługiwana. Jeśli masz inny poziom subskrypcji i nie chcesz korzystać z bramy Brama danych ruchu danych, wybierz opcję Brak. Informacje o zaletach bramy Brama danych ruchu danych i o okolicznościach, w których jest wymagana, zawiera temat Brama danych Qlik — ruch danych.
Data rozpoczęcia	Wprowadź datę, w formacie `MM/DD/YYYY`, od której dane muszą być replikowane ze źródła do celu.
Zasobnik S3	Nazwa zasobnika S3.
Identyfikator konta AWS	Identyfikator konta AWS, na którym istnieje zasobnik. Identyfikator konta AWS można znaleźć w Konsoli zarządzania AWS w sekcji Szczegóły konta.
Wzorzec wyszukiwania	Wprowadź pliki do uwzględnienia w tabeli. Można wprowadzić pojedynczą nazwę pliku lub wyrażenie regularne. Przykład: `users\.csvproducts\.jsonl`.
Katalog	Ograniczenie wyszukiwania w tej ścieżce katalogu. Po zdefiniowaniu tylko pliki w tej lokalizacji będą przeszukiwane i zostaną wybrane te, które pasują do wzorca wyszukiwania. Nie można użyć wyrażenia regularnego. Przykład: csv-exports-folder lub employee_jsonl_exports.
Konfiguracja tabeli Skonfiguruj tabelę, określając pliki, które chcesz dołączyć. Można skonfigurować wiele tabel.
Nazwa tabeli	Nazwa tabeli. Każdy cel ma swoje własne zasady dotyczące nazewnictwa tabel. Przykładowo, nazwy tabel Amazon Redshift nie mogą przekraczać 127 znaków.
Klucz główny	Wprowadź klucz główny, aby zidentyfikować unikalne wiersze lub rekordy. Jeśli wprowadzasz więcej niż jeden klucz, użyj przecinka, aby oddzielić wartości. W przypadku plików CSV wprowadź pola nagłówka lub nazwy kolumn. W przypadku plików JSONL wprowadź nazwy atrybutów lub klucze obiektów. Przykład: id, name.
Określanie pól daty i godziny	Wprowadź wartości, które muszą pojawić się w tabeli jako data i godzina zamiast łańcuch. Przykład: created_at, modified_at.
Ogranicznik	Z listy rozwijanej wybierz ogranicznik.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię