Google Cloud Storage

Google Cloud Storage to ujednolicona usługa przechowywania obiektów firmy Google służąca do przechowywania danych i uzyskiwania do nich dostępu w infrastrukturze Google Cloud. Oferuje wysoką dostępność, globalną redundancję i integruje się z szerszym ekosystemem Google Cloud.

Qlik Talend Cloud używa konta usługi Google Cloud z dostępem do odczytu do docelowego zasobnika, aby połączyć się z Google Cloud Storage (GCS). Łącznik pobiera pliki z określonego zasobnika, automatycznie wykrywa schematy poprzez próbkowanie zawartości plików i wykonuje przyrostową replikację danych na podstawie znaczników czasu modyfikacji plików.

Ogólne informacje o tym łączniku, w tym przydatne linki i obsługiwane cechy.

Cecha/możliwość	Szczegóły obsługi
Wspierane projekty Qlik Talend Data Integration	Tylko projekty replikacji. Projekty potoków danych nie są obsługiwane.
Metody aktualizacji celu	Zadania replikacji: Zastosuj zmiany Zapisz zmiany Umieszczanie danych w zadaniach jeziora danych: Przechwytywanie zmian danych (CDC)
Zarządzanie metadanymi	Ręczne tworzenie metadanych nie jest wymagane.
Ewolucja schematu	Obsługiwana jest tylko operacja Zmień typ danych kolumny.
Replikacja kolumn LOB (NCLOB, CLOB i BLOB)	Brak obsługi.
Zaplanowane CDC	Wymagane. W ten sposób cel jest na bieżąco informowany o zmianach w źródle. W kwestii zadań replikacji zobacz Harmonogramowanie zadań W sprawie zadań umieszczania w jeziorze zobacz Harmonogramowanie CDC dla zadań umieszczania w jeziorze danych
Powiadomienia	Częściowa obsługa Ustawianie powiadomień o zmianach w działaniu
Monitorowanie	Tylko CDC, ponieważ pełne ładowanie jest nieodpowiednie dla tego łącznika. Monitorowanie pojedynczego zadania danych
Automatyczne eliminowanie zagnieżdżeń zawartości kolumn JSON	Brak obsługi. Ładunki kolumn JSON w źródłowych zestawach danych nie są automatycznie rozwijane w docelowych.

Przygotowanie do uwierzytelniania

Aby uzyskać dostęp do swoich danych, musisz uwierzytelnić połączenie za pomocą poświadczeń konta.

Upewnij się, że używane konto ma uprawnienia do odczytu interesujących Cię tabel.

Aby skonfigurować konto Google Cloud Storage, potrzebujesz:

Projektu Google Cloud Platform (GCP) z włączonym interfejsem API Cloud Storage.
Zasobnika Google Cloud Storage (GCS), który zawiera pliki do replikacji.
Konta usługi z dostępem do odczytu do zasobnika.
Zalecaną rolą jest Storage Object Viewer (roles/storage.objectViewer), która przyznaje wymagane uprawnienia storage.objects.get i storage.objects.list. Aby uzyskać więcej informacji, zobacz dokumentację ról IAM w Google Cloud Storage .
Pobranego pliku klucza JSON konta usługi dla tego konta usługi.

Aby utworzyć konto usługi i pobrać poświadczenia:

Zaloguj się na swoje konto Google Cloud.
Przejdź do IAM i administracja > Konta usługi.
Kliknij Utwórz konto usługi.
Wprowadź nazwę i opis konta usługi, a następnie kliknij Utwórz i kontynuuj.
Przyznaj kontu usługi rolę Przeglądający obiekty w Storage (Storage Object Viewer) lub rolę niestandardową z uprawnieniami storage.objects.get i storage.objects.list.
Kliknij Kontynuuj i Gotowe.
W nowo utworzonym koncie usługi kliknij menu Działania.
Przejdź do Zarządzaj kluczami > Dodaj klucz > Utwórz nowy klucz.
Wybierz JSON i kliknij Utwórz.
Plik klucza JSON zostanie pobrany bezpośrednio na Twój komputer. Ten plik zawiera pola project_id, client_email i private_key wymagane do nawiązania połączenia.
Plik klucza można pobrać tylko raz. Pamiętaj, aby przechowywać go bezpiecznie i utworzyć jego kopię zapasową, ponieważ zapewnia on dostęp do Twoich zasobów Google Cloud.

Obsługiwane formaty plików

Tekst rozdzielany: CSV, TSV, PSV, TXT (z konfigurowalnym ogranicznikiem)
JSON Lines (.jsonl)
Parquet (.parquet)
Avro (.avro)
Pliki skompresowane w formacie Gzip (.gz) zawierające dowolny z powyższych formatów
Archiwa ZIP zawierające pliki CSV, JSON Lines, TXT, TSV, PSV lub Gzip

Tworzenie połączenia

Więcej informacji zawiera temat Łączenie się z aplikacjami SaaS.

Wprowadź wymagane właściwości połączenia.
Podaj nazwę połączenia w polu Nazwa połączenia.
Wybierz opcję Otwórz metadane połączenia, aby zdefiniować metadane połączenia po jegu utworzeniu.
Kliknij polecenie Utwórz.

Ustawienia połączenia
Ustawienie	Opis
Brama danych	Wybierz bramę Brama danych ruchu danych, jeżeli jest wymagana do danego zastosowania. Informacja To pole jest niedostępne w subskrypcji Qlik Talend Cloud Starter, ponieważ brama Brama danych ruchu danych jest w niej nieobsługiwana. Jeśli masz inny poziom subskrypcji i nie chcesz korzystać z bramy Brama danych ruchu danych, wybierz opcję Brak. Informacje o zaletach bramy Brama danych ruchu danych i o okolicznościach, w których jest wymagana, zawiera temat Brama danych Qlik — ruch danych.
Data rozpoczęcia	Wprowadź datę, w formacie `MM/DD/YYYY`, od której dane muszą być replikowane ze źródła do celu.
Adres e-mail klienta	Adres e-mail klienta z pliku klucza JSON konta usługi.
Identyfikator projektu	Identyfikator projektu z pliku klucza JSON konta usługi.
Zasobnik	Nazwa zasobnika Google Cloud Storage (GCS), w którym przechowywane są pliki, na przykład `my-gcs-bucket`. Nie dołączaj prefiksu `gs://`.
Tabele	Skonfiguruj tabele, aby kontrolować, które pliki są odczytywane i jak interpretowana jest ich zawartość. Każda definicja tabeli zawiera wzorzec wyszukiwania plików, nazwę tabeli i opcjonalne ustawienia dla zaawansowanego zachowania.
Klucz prywatny	Klucz prywatny z pliku klucza JSON konta usługi.

Konfiguracja tabeli

Każdy wpis w konfiguracji tabeli określa tabelę logiczną utworzoną z plików w docelowym zasobniku. Dla każdej tabeli można skonfigurować następujące właściwości:

Właściwość	Wymagane lub opcjonalne	Opis
Nazwa tabeli	Wymagane	Określ nazwę dla tabeli logicznej, na przykład `my_orders_csv`. Ta nazwa pojawi się jako nazwa strumienia w Qlik Talend Cloud.
Wzorzec wyszukiwania	Wymagane	Wprowadź wyrażenie regularne, aby dopasować nazwy plików, na przykład `.csv$`, aby wybrać wszystkie pliki CSV.
Prefiks wyszukiwania	Opcjonalne	Podaj prefiks ścieżki w zasobniku, aby zawęzić wyszukiwanie plików, na przykład `exports/orders/`. Użycie prefiksu poprawia wydajność poprzez ograniczenie liczby skanowanych plików.
Właściwości klucza	Opcjonalne	Wymień jedną lub więcej nazw kolumn, oddzielonych przecinkami, aby zdefiniować klucz podstawowy. Na przykład: `id` lub `id,date`.
Zastąpienia dat	Opcjonalne	Wymień nazwy kolumn, oddzielone przecinkami, które mają być traktowane jako pola daty i godziny. Użyj tej opcji, jeśli te pola nie zostaną automatycznie wykryte podczas wykrywania schematu.
Ogranicznik	Opcjonalne	Określ znak, który oddziela wartości w plikach. Wartością domyślną jest `,` (przecinek). Użyj `\t` dla plików rozdzielanych tabulatorami (TSV) lub `\|` dla plików rozdzielanych pionową kreską (PSV). Jeśli pole pozostanie puste, system automatycznie wykryje ogranicznik na podstawie rozszerzenia pliku.

Replikowane tabele

Tabele są tworzone na podstawie konfiguracji tabeli (patrz wyżej). Każda tabela odpowiada zestawowi plików w zasobniku Google Cloud Storage (GCS), które pasują zarówno do określonego wzorca wyszukiwania, jak i opcjonalnego prefiksu. Łącznik automatycznie wykrywa schematy, próbkując do 5 plików na tabelę, odczytując co piąty wiersz, z maksymalnie 1000 rekordów na plik.

Replikacja jest przyrostowa i wykorzystuje znaczniki czasu modyfikacji plików do śledzenia zmian. Podczas każdej ekstrakcji łącznik przetwarza tylko te pliki, które zostały zmodyfikowane od ostatniej udanej synchronizacji, zgodnie z zapisem w zakładce synchronizacji.

Do każdej tabeli domyślnie dodawane są następujące kolumny systemowe:

Kolumna	Opis
`_sdc_source_bucket`	Nazwa zasobnika Google Cloud Storage (GCS), z którego odczytano rekord.
`_sdc_source_file`	Pełna ścieżka pliku zawierającego rekord.
`_sdc_source_lineno`	Numer wiersza rekordu w pliku.
`_sdc_extra`	Wszelkie dodatkowe kolumny znalezione podczas analizowania, które nie pasują do wykrytego schematu. Dotyczy tylko plików JSONL.

Ograniczenia i uwagi

Poświadczenia konta usługi (project_id, client_email, private_key) muszą być podane jako pojedyncze wartości wyodrębnione z pliku klucza JSON; przesyłanie plików nie jest obsługiwane.
Pliki skompresowane w formacie Gzip (.gz) są obsługiwane. Łącznik odczytuje oryginalną nazwę pliku z nagłówka gzip, aby określić wewnętrzny format pliku. Pliki Gzip utworzone z opcją --no-name (brak nazwy pliku zapisanej w nagłówku) są pomijane.
Zagnieżdżona kompresja (na przykład plik .gz wewnątrz innego pliku .gz lub plik .zip wewnątrz pliku .zip) nie jest obsługiwana. Te pliki są pomijane.
Pliki z rozszerzeniami .csv, .txt, .tsv, .psv lub .jsonl są sprawdzane pod kątem magicznych bajtów gzip i dekompresowane, jeśli są skompresowane w formacie gzip — nawet jeśli plik nie ma rozszerzenia .gz.
Pole search_pattern używa składni wyrażeń regularnych, a nie wzorców glob. Na przykład użyj \.csv$ zamiast *.csv.
Łącznik ma wbudowaną logikę ponawiania prób z wykładniczym opóźnieniem dla limitów szybkości interfejsu API Google Cloud Storage (GCS) (429) i przejściowych błędów serwera (500, 502, 503, 504). Przed zgłoszeniem błędu podejmowanych jest do pięciu prób.
Pliki bez rozpoznanego rozszerzenia są pomijane i generowane jest ostrzeżenie.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię