Google Cloud Storage
Google Cloud Storage to ujednolicona usługa przechowywania obiektów firmy Google służąca do przechowywania danych i uzyskiwania do nich dostępu w infrastrukturze Google Cloud. Oferuje wysoką dostępność, globalną redundancję i integruje się z szerszym ekosystemem Google Cloud.
Qlik Talend Cloud używa konta usługi Google Cloud z dostępem do odczytu do docelowego zasobnika, aby połączyć się z Google Cloud Storage (GCS). Łącznik pobiera pliki z określonego zasobnika, automatycznie wykrywa schematy poprzez próbkowanie zawartości plików i wykonuje przyrostową replikację danych na podstawie znaczników czasu modyfikacji plików.
Przygotowanie do uwierzytelniania
Aby uzyskać dostęp do swoich danych, musisz uwierzytelnić połączenie za pomocą poświadczeń konta.
Aby skonfigurować konto Google Cloud Storage, potrzebujesz:
- Projektu Google Cloud Platform (GCP) z włączonym interfejsem API Cloud Storage.
- Zasobnika Google Cloud Storage (GCS), który zawiera pliki do replikacji.
- Konta usługi z dostępem do odczytu do zasobnika.
Zalecaną rolą jest Storage Object Viewer (
roles/storage.objectViewer), która przyznaje wymagane uprawnieniastorage.objects.getistorage.objects.list. Aby uzyskać więcej informacji, zobacz dokumentację ról IAM w Google Cloud Storage . - Pobranego pliku klucza JSON konta usługi dla tego konta usługi.
Aby utworzyć konto usługi i pobrać poświadczenia:
- Zaloguj się na swoje konto Google Cloud.
- Przejdź do IAM i administracja > Konta usługi.
- Kliknij Utwórz konto usługi.
- Wprowadź nazwę i opis konta usługi, a następnie kliknij Utwórz i kontynuuj.
- Przyznaj kontu usługi rolę Przeglądający obiekty w Storage (Storage Object Viewer) lub rolę niestandardową z uprawnieniami
storage.objects.getistorage.objects.list. - Kliknij Kontynuuj i Gotowe.
- W nowo utworzonym koncie usługi kliknij menu Działania.
- Przejdź do Zarządzaj kluczami > Dodaj klucz > Utwórz nowy klucz.
- Wybierz JSON i kliknij Utwórz.
Plik klucza JSON zostanie pobrany bezpośrednio na Twój komputer. Ten plik zawiera pola
project_id,client_emailiprivate_keywymagane do nawiązania połączenia.Plik klucza można pobrać tylko raz. Pamiętaj, aby przechowywać go bezpiecznie i utworzyć jego kopię zapasową, ponieważ zapewnia on dostęp do Twoich zasobów Google Cloud.
Obsługiwane formaty plików
- Tekst rozdzielany: CSV, TSV, PSV, TXT (z konfigurowalnym ogranicznikiem)
- JSON Lines (
.jsonl) - Parquet (
.parquet) - Avro (
.avro) - Pliki skompresowane w formacie Gzip (
.gz) zawierające dowolny z powyższych formatów - Archiwa ZIP zawierające pliki CSV, JSON Lines, TXT, TSV, PSV lub Gzip
Tworzenie połączenia
Więcej informacji zawiera temat Łączenie się z aplikacjami SaaS.
- Wprowadź wymagane właściwości połączenia.
-
Podaj nazwę połączenia w polu Nazwa połączenia.
-
Wybierz opcję Otwórz metadane połączenia, aby zdefiniować metadane połączenia po jegu utworzeniu.
-
Kliknij polecenie Utwórz.
| Ustawienie | Opis |
|---|---|
| Brama danych |
Wybierz bramę Brama danych ruchu danych, jeżeli jest wymagana do danego zastosowania. Informacja
To pole jest niedostępne w subskrypcji Qlik Talend Cloud Starter, ponieważ brama Brama danych ruchu danych jest w niej nieobsługiwana. Jeśli masz inny poziom subskrypcji i nie chcesz korzystać z bramy Brama danych ruchu danych, wybierz opcję Brak. Informacje o zaletach bramy Brama danych ruchu danych i o okolicznościach, w których jest wymagana, zawiera temat Brama danych Qlik — ruch danych. |
| Data rozpoczęcia |
Wprowadź datę, w formacie |
| Adres e-mail klienta | Adres e-mail klienta z pliku klucza JSON konta usługi. |
| Identyfikator projektu | Identyfikator projektu z pliku klucza JSON konta usługi. |
| Zasobnik | Nazwa zasobnika Google Cloud Storage (GCS), w którym przechowywane są pliki, na przykład my-gcs-bucket.
Nie dołączaj prefiksu |
| Tabele | Skonfiguruj tabele, aby kontrolować, które pliki są odczytywane i jak interpretowana jest ich zawartość. Każda definicja tabeli zawiera wzorzec wyszukiwania plików, nazwę tabeli i opcjonalne ustawienia dla zaawansowanego zachowania. |
| Klucz prywatny | Klucz prywatny z pliku klucza JSON konta usługi. |
Konfiguracja tabeli
Każdy wpis w konfiguracji tabeli określa tabelę logiczną utworzoną z plików w docelowym zasobniku. Dla każdej tabeli można skonfigurować następujące właściwości:
| Właściwość | Wymagane lub opcjonalne | Opis |
|---|---|---|
| Nazwa tabeli | Wymagane |
Określ nazwę dla tabeli logicznej, na przykład my_orders_csv. Ta nazwa pojawi się jako nazwa strumienia w Qlik Talend Cloud.
|
| Wzorzec wyszukiwania | Wymagane |
Wprowadź wyrażenie regularne, aby dopasować nazwy plików, na przykład .csv$, aby wybrać wszystkie pliki CSV.
|
| Prefiks wyszukiwania | Opcjonalne | Podaj prefiks ścieżki w zasobniku, aby zawęzić wyszukiwanie plików, na przykład exports/orders/. Użycie prefiksu poprawia wydajność poprzez ograniczenie liczby skanowanych plików.
|
| Właściwości klucza | Opcjonalne |
Wymień jedną lub więcej nazw kolumn, oddzielonych przecinkami, aby zdefiniować klucz podstawowy. Na przykład: id lub id,date.
|
| Zastąpienia dat | Opcjonalne | Wymień nazwy kolumn, oddzielone przecinkami, które mają być traktowane jako pola daty i godziny. Użyj tej opcji, jeśli te pola nie zostaną automatycznie wykryte podczas wykrywania schematu. |
| Ogranicznik | Opcjonalne |
Określ znak, który oddziela wartości w plikach. Wartością domyślną jest , (przecinek). Użyj \t dla plików rozdzielanych tabulatorami (TSV) lub | dla plików rozdzielanych pionową kreską (PSV). Jeśli pole pozostanie puste, system automatycznie wykryje ogranicznik na podstawie rozszerzenia pliku.
|
Replikowane tabele
Tabele są tworzone na podstawie konfiguracji tabeli (patrz wyżej). Każda tabela odpowiada zestawowi plików w zasobniku Google Cloud Storage (GCS), które pasują zarówno do określonego wzorca wyszukiwania, jak i opcjonalnego prefiksu. Łącznik automatycznie wykrywa schematy, próbkując do 5 plików na tabelę, odczytując co piąty wiersz, z maksymalnie 1000 rekordów na plik.
Replikacja jest przyrostowa i wykorzystuje znaczniki czasu modyfikacji plików do śledzenia zmian. Podczas każdej ekstrakcji łącznik przetwarza tylko te pliki, które zostały zmodyfikowane od ostatniej udanej synchronizacji, zgodnie z zapisem w zakładce synchronizacji.
Do każdej tabeli domyślnie dodawane są następujące kolumny systemowe:
| Kolumna | Opis |
|---|---|
_sdc_source_bucket
|
Nazwa zasobnika Google Cloud Storage (GCS), z którego odczytano rekord. |
_sdc_source_file
|
Pełna ścieżka pliku zawierającego rekord. |
_sdc_source_lineno
|
Numer wiersza rekordu w pliku. |
_sdc_extra
|
Wszelkie dodatkowe kolumny znalezione podczas analizowania, które nie pasują do wykrytego schematu. Dotyczy tylko plików JSONL. |
Ograniczenia i uwagi
-
Poświadczenia konta usługi (
project_id,client_email,private_key) muszą być podane jako pojedyncze wartości wyodrębnione z pliku klucza JSON; przesyłanie plików nie jest obsługiwane. -
Pliki skompresowane w formacie Gzip (
.gz) są obsługiwane. Łącznik odczytuje oryginalną nazwę pliku z nagłówka gzip, aby określić wewnętrzny format pliku. Pliki Gzip utworzone z opcją--no-name(brak nazwy pliku zapisanej w nagłówku) są pomijane. -
Zagnieżdżona kompresja (na przykład plik
.gzwewnątrz innego pliku.gzlub plik.zipwewnątrz pliku.zip) nie jest obsługiwana. Te pliki są pomijane. -
Pliki z rozszerzeniami
.csv,.txt,.tsv,.psvlub.jsonlsą sprawdzane pod kątem magicznych bajtów gzip i dekompresowane, jeśli są skompresowane w formacie gzip — nawet jeśli plik nie ma rozszerzenia.gz. -
Pole
search_patternużywa składni wyrażeń regularnych, a nie wzorców glob. Na przykład użyj\.csv$zamiast*.csv. -
Łącznik ma wbudowaną logikę ponawiania prób z wykładniczym opóźnieniem dla limitów szybkości interfejsu API Google Cloud Storage (GCS) (
429) i przejściowych błędów serwera (500,502,503,504). Przed zgłoszeniem błędu podejmowanych jest do pięciu prób. - Pliki bez rozpoznanego rozszerzenia są pomijane i generowane jest ostrzeżenie.