Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Amazon S3  

Amazon Simple Storage Service (Amazon S3) to usługa obiektowej pamięci masowej, która oferuje wiodącą w branży skalowalność, dostępność danych, bezpieczeństwo i wydajność.

Przygotowanie do uwierzytelnienia

Aby uzyskać dostęp do swoich danych, musisz uwierzytelnić połączenie za pomocą danych logowania do swojego konta.

InformacjaUpewnij się, że używane konto ma uprawnienia do odczytu interesujących Cię tabel.

Aby połączyć się z Amazon S3, potrzebne są uprawnienia w AWS Identity Access Management (IAM), które pozwalają na tworzenie zasad i ról oraz wiązanie zasad z rolami. Jest to wymagane do przyznania uprawnień do zasobnika S3:

Tworzenie zasady IAM

Zasada IAM to język zasad dostępu oparty na JSON, służący do zarządzania uprawnieniami do zasobów zasobnika.

Uprawnienia Amazon S3
Nazwa uprawnienia Operacja Opis
s3:GetObject Obiekt GET

Umożliwia pobieranie obiektów z Amazon S3.

s3:GetObjectObiekt HEAD

Umożliwia pobieranie metadanych z obiektu bez zwracania samego obiektu.

s3:ListBucket GET Zasobnik (lista obiektów)

Umożliwia zwrot niektórych lub wszystkich (do 1000) obiektów znajdujących się w zasobniku.

s3:ListBucket zasobnik HEAD

Służy do określania, czy zasobnik istnieje i czy dostęp do niego jest dozwolony.

Aby utworzyć zasadę IAM:

  1. W AWS przejdź do usługi IAM, klikając Usługi i wpisując IAM.
  2. Kliknij IAM, gdy pojawi się w wynikach.
  3. Kliknij opcję Zasady w menu po lewej stronie.
  4. Kliknij przycisk Utwórz zasadę.
  5. Na stronie Utwórz zasadę kliknij kartę JSON.
  6. Zaznacz wszystkie elementy znajdujące się w polu tekstowym i usuń je.
  7. W polu tekstowym wklej poniższy kod JSON i zastąp MyBucketName nazwą swojego zasobnika:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "",
                "Effect": "Allow",
                "Action": [
                "s3:GetObject",
                "s3:ListBucket"
                ],
                "Resource": [
                "arn:aws:s3:::MyBucketName",
                "arn:aws:s3:::MyBucketName/*"
                ]
            }
        ]
    }
  8. Kliknij opcję Przejrzyj zasadę.
  9. Na stronie Przejrzyj zasadę nadaj zasadzie nazwę. Na przykład: qlik_amazon_s3.
  10. Kliknij przycisk Utwórz zasadę.

Tworzenie roli IAM

Informacja

Aby wykonać ten krok, należy mieć następujące uprawnienia AWS IAM: CreateRole i AttachRolePolicy. Więcej informacji zawiera dokumentacja Amazon.

Jeśli tworzysz wiele integracji Amazon S3, musisz wykonać ten krok dla każdej połączonej integracji.

  1. W AWS przejdź do strony Role IAM.
  2. Kliknij Utwórz rolę.
  3. Na stronie Utwórz rolę:
    1. W sekcji Wybierz typ zaufanego podmiotu kliknij opcję Inne konto AWS.
    2. W polu ID konta wklej 338144066592.
    3. W sekcji Opcje zaznacz pole wyboru Wymagaj zewnętrznego ID.
    4. W wyświetlonym polu Zewnętrzny ID wklej qlik_connection_<tenant-id> i zastąp <tenant-id> swoim identyfikatorem dzierżawy.

      Aby znaleźć identyfikator dzierżawy, zobacz Znajdowanie informacji o dzierżawie.

    5. Kliknij przycisk Dalej: Uprawnienia.
  4. Na stronie Dołącz uprawnienia:
    1. Wyszukaj zasadę utworzoną w sekcji Tworzenie zasady IAM.
    2. Kiedy ją znajdziesz, zaznacz pole obok niej w tabeli.
    3. Kliknij przycisk Dalej: Tagi.
  5. Jeśli chcesz wprowadzić jakiekolwiek tagi, zrób to na stronie Dodaj tagi. W przeciwnym razie kliknij Dalej: Przegląd.
  6. Na stronie Przegląd:
    1. W polu Nazwa roli wklej qlik_s3_<tenant-id> i zastąp <tenant-id> swoim identyfikatorem dzierżawy.

      Aby znaleźć identyfikator dzierżawy, zobacz Znajdowanie informacji o dzierżawie.

    2. W polu Opis roli wprowadź opis. Na przykład: Qlik role for Amazon S3 integration.
    3. Kliknij przycisk Utwórz rolę.

Definiowanie wzorca wyszukiwania

Pole Wzorzec wyszukiwania definiuje kryteria wyszukiwania, których Qlik powinien używać do wybierania i replikacji plików. To pole akceptuje wyrażenia regularne, które mogą być używane do dołączania pojedynczego pliku lub wielu plików.

Podczas tworzenia wzorca wyszukiwania należy mieć na uwadze następujące kwestie:

  • W przypadku dołączania wielu plików dla jednej tabeli każdy plik powinien mieć te same wartości wiersza nagłówka.
  • Znaki specjalne, takie jak kropki (.) mają specjalne znaczenie w wyrażeniach regularnych. Aby je dokładnie dopasować, należy zastosować symbole zastępcze. Na przykład: .\
  • Qlik używa Pythona do wyrażeń regularnych, które mogą różnić się składnią od innych odmian. Spróbuj użyć PyRegex do przetestowania wyrażeń przed zapisaniem integracji.
  • Wzorce wyszukiwania powinny uwzględniać sposób aktualizacji danych w plikach. Rozważmy następujące przykłady:
Scenariusz Pojedynczy plik, okresowo aktualizowany Wiele plików generowanych codziennie
Jak dokonywane są aktualizacje Pojedynczy plik JSONL jest okresowo aktualizowany o nowe i zaktualizowane dane klientów. Codziennie tworzony jest nowy plik CSV zawierający nowe i zaktualizowane dane kontenera. Stare pliki nigdy nie są aktualizowane po utworzeniu.
Nazwa pliku customers.jsonl customers-[STRING].csvgdzie [STRING] jest unikalnym, losowym ciągiem znaków
Wzorzec wyszukiwania

Ponieważ zawsze będzie tylko jeden plik, można wprowadzić dokładną nazwę pliku w zasobniku S3:

customers\.jsonl

Aby zapewnić identyfikację nowych i zaktualizowanych plików, należy wprowadzić wzorzec wyszukiwania, który będzie pasował do wszystkich plików zaczynających się od customers, niezależnie od ciągu znaków w nazwie pliku:

(customers-).*\.csv
Pasuje do customer.jsonl, dokładnie
  • customers-reQDSwNG6U.csv
  • customers-xaPTXfN4tD.csv
  • customers-MBJMhCbNCp.csv
  • itp.

Wymagania dotyczące plików

Nagłówek pierwszego wiersza (tylko pliki CSV)
  • Każdy plik musi mieć nagłówek pierwszego wiersza zawierający nazwy kontenerów. Pierwszy wiersz w dowolnym pliku jest uważany za wiersz nagłówka i będzie prezentował te wartości jako kolumny dostępne do wyboru.
  • Pliki z tymi samymi wartościami nagłówka pierwszego wiersza, jeśli w tabeli znajduje się wiele plików. Integracja Amazon S3 umożliwia mapowanie kilku plików do jednej tabeli docelowej. Wartości wiersza nagłówka są używane do określania schematu tabeli. Aby uzyskać najlepsze wyniki, każdy plik powinien mieć te same wartości wierszy nagłówka.

    Różni się to od konfigurowania wielu tabel. Przykłady można znaleźć w sekcji Definiowanie wzorca wyszukiwania.

Typy plików
  • CSV (.csv)
  • Tekstowy (.txt)
  • JSONL (.jsonl)
Rodzaje kompresji

Pliki te muszą być poprawnie skompresowane, w przeciwnym razie podczas ich wyodrębniania pojawią się błędy.

  • skompresowane pliki gzip (.gz)
Znaki rozdzielające (tylko pliki CSV)
  • Przecinek (,)
  • Tabulator (/t)
  • Pionowa kreska (|)
  • Średnik (;)
Kodowanie znaków

UTF-8

Tworzenie połączenia

Więcej informacji zawiera temat Łączenie się z aplikacjami SaaS.

  1. Wprowadź wymagane właściwości połączenia.
  2. Podaj nazwę połączenia w polu Nazwa połączenia.

  3. Wybierz opcję Otwórz metadane połączenia, aby zdefiniować metadane połączenia po jegu utworzeniu.

  4. Kliknij polecenie Utwórz.

Ustawienia połączenia
Ustawienie Opis
Brama danych

Wybierz bramę Data Movement gateway, jeżeli jest wymagana do danego zastosowania.

Informacja

To pole jest niedostępne w subskrypcji Qlik Talend Cloud Starter, ponieważ brama Data Movement gateway jest w niej nieobsługiwana. Jeśli masz inny poziom subskrypcji i nie chcesz korzystać z bramy Data Movement gateway, wybierz opcję Brak.

Informacje o zaletach bramy Data Movement gateway i o okolicznościach, w których jest wymagana, zawiera temat Qlik Data Gateway - Data Movement.

Data rozpoczęcia

Wprowadź datę, w formacie MM/DD/YYYY, od której dane muszą być replikowane ze źródła do celu.

Zasobnik S3 Nazwa zasobnika S3.
Identyfikator konta AWS

Identyfikator konta AWS, na którym istnieje zasobnik.

Identyfikator konta AWS można znaleźć w Konsoli zarządzania AWS w sekcji Szczegóły konta.

Wzorzec wyszukiwania Wprowadź pliki do uwzględnienia w tabeli. Można wprowadzić pojedynczą nazwę pliku lub wyrażenie regularne.

Przykład: users\*.csvproducts\*.jsonl.

Katalog Ograniczenie wyszukiwania w tej ścieżce katalogu. Po zdefiniowaniu tylko pliki w tej lokalizacji będą przeszukiwane i zostaną wybrane te, które pasują do wzorca wyszukiwania. Nie można użyć wyrażenia regularnego.

Przykład: csv-exports-folder lub employee_jsonl_exports.

Konfiguracja tabeli

Skonfiguruj tabelę, określając pliki, które chcesz dołączyć.

Można skonfigurować wiele tabel.

Nazwa tabeli Nazwa tabeli.

Każdy cel ma swoje własne zasady dotyczące nazewnictwa tabel. Przykładowo, nazwy tabel Amazon Redshift nie mogą przekraczać 127 znaków.

Klucz główny Wprowadź klucz główny, aby zidentyfikować unikalne wiersze lub rekordy. Jeśli wprowadzasz więcej niż jeden klucz, użyj przecinka, aby oddzielić wartości.
  • W przypadku plików CSV wprowadź pola nagłówka lub nazwy kolumn.
  • W przypadku plików JSONL wprowadź nazwy atrybutów lub klucze obiektów.

Przykład: id, name.

Określanie pól daty i godziny Wprowadź wartości, które muszą pojawić się w tabeli jako data i godzina zamiast łańcuch.

Przykład: created_at, modified_at.

Ogranicznik Z listy rozwijanej wybierz ogranicznik.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!