Google Cloud Storage | Qlik Cloud Pomoc
Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Google Cloud Storage 

Google Cloud Storage to ujednolicona usługa przechowywania obiektów firmy Google służąca do przechowywania danych i uzyskiwania do nich dostępu w infrastrukturze Google Cloud. Oferuje wysoką dostępność, globalną redundancję i integruje się z szerszym ekosystemem Google Cloud.

Qlik Talend Cloud używa konta usługi Google Cloud z dostępem do odczytu do docelowego zasobnika, aby połączyć się z Google Cloud Storage (GCS). Łącznik pobiera pliki z określonego zasobnika, automatycznie wykrywa schematy poprzez próbkowanie zawartości plików i wykonuje przyrostową replikację danych na podstawie znaczników czasu modyfikacji plików.

Przygotowanie do uwierzytelniania

Aby uzyskać dostęp do swoich danych, musisz uwierzytelnić połączenie za pomocą poświadczeń konta.

InformacjaUpewnij się, że używane konto ma uprawnienia do odczytu interesujących Cię tabel.

Aby skonfigurować konto Google Cloud Storage, potrzebujesz:

  • Projektu Google Cloud Platform (GCP) z włączonym interfejsem API Cloud Storage.
  • Zasobnika Google Cloud Storage (GCS), który zawiera pliki do replikacji.
  • Konta usługi z dostępem do odczytu do zasobnika.

    Zalecaną rolą jest Storage Object Viewer (roles/storage.objectViewer), która przyznaje wymagane uprawnienia storage.objects.get i storage.objects.list. Aby uzyskać więcej informacji, zobacz dokumentację ról IAM w Google Cloud Storage .

  • Pobranego pliku klucza JSON konta usługi dla tego konta usługi.

Aby utworzyć konto usługi i pobrać poświadczenia:

  1. Zaloguj się na swoje konto Google Cloud.
  2. Przejdź do IAM i administracja > Konta usługi.
  3. Kliknij Utwórz konto usługi.
  4. Wprowadź nazwę i opis konta usługi, a następnie kliknij Utwórz i kontynuuj.
  5. Przyznaj kontu usługi rolę Przeglądający obiekty w Storage (Storage Object Viewer) lub rolę niestandardową z uprawnieniami storage.objects.get i storage.objects.list.
  6. Kliknij Kontynuuj i Gotowe.
  7. W nowo utworzonym koncie usługi kliknij menu Działania.
  8. Przejdź do Zarządzaj kluczami > Dodaj klucz > Utwórz nowy klucz.
  9. Wybierz JSON i kliknij Utwórz.

    Plik klucza JSON zostanie pobrany bezpośrednio na Twój komputer. Ten plik zawiera pola project_id, client_email i private_key wymagane do nawiązania połączenia.

    Plik klucza można pobrać tylko raz. Pamiętaj, aby przechowywać go bezpiecznie i utworzyć jego kopię zapasową, ponieważ zapewnia on dostęp do Twoich zasobów Google Cloud.

Obsługiwane formaty plików

  • Tekst rozdzielany: CSV, TSV, PSV, TXT (z konfigurowalnym ogranicznikiem)
  • JSON Lines (.jsonl)
  • Parquet (.parquet)
  • Avro (.avro)
  • Pliki skompresowane w formacie Gzip (.gz) zawierające dowolny z powyższych formatów
  • Archiwa ZIP zawierające pliki CSV, JSON Lines, TXT, TSV, PSV lub Gzip

Tworzenie połączenia

Więcej informacji zawiera temat Łączenie się z aplikacjami SaaS.

  1. Wprowadź wymagane właściwości połączenia.
  2. Podaj nazwę połączenia w polu Nazwa połączenia.

  3. Wybierz opcję Otwórz metadane połączenia, aby zdefiniować metadane połączenia po jegu utworzeniu.

  4. Kliknij polecenie Utwórz.

Ustawienia połączenia
Ustawienie Opis
Brama danych

Wybierz bramę Brama danych ruchu danych, jeżeli jest wymagana do danego zastosowania.

Informacja

To pole jest niedostępne w subskrypcji Qlik Talend Cloud Starter, ponieważ brama Brama danych ruchu danych jest w niej nieobsługiwana. Jeśli masz inny poziom subskrypcji i nie chcesz korzystać z bramy Brama danych ruchu danych, wybierz opcję Brak.

Informacje o zaletach bramy Brama danych ruchu danych i o okolicznościach, w których jest wymagana, zawiera temat Brama danych Qlik — ruch danych.

Data rozpoczęcia

Wprowadź datę, w formacie MM/DD/YYYY, od której dane muszą być replikowane ze źródła do celu.

Adres e-mail klienta Adres e-mail klienta z pliku klucza JSON konta usługi.
Identyfikator projektu Identyfikator projektu z pliku klucza JSON konta usługi.
Zasobnik Nazwa zasobnika Google Cloud Storage (GCS), w którym przechowywane są pliki, na przykład my-gcs-bucket.

Nie dołączaj prefiksu gs://.

Tabele Skonfiguruj tabele, aby kontrolować, które pliki są odczytywane i jak interpretowana jest ich zawartość. Każda definicja tabeli zawiera wzorzec wyszukiwania plików, nazwę tabeli i opcjonalne ustawienia dla zaawansowanego zachowania.
Klucz prywatny Klucz prywatny z pliku klucza JSON konta usługi.

Konfiguracja tabeli

Każdy wpis w konfiguracji tabeli określa tabelę logiczną utworzoną z plików w docelowym zasobniku. Dla każdej tabeli można skonfigurować następujące właściwości:

Właściwość Wymagane lub opcjonalne Opis
Nazwa tabeli Wymagane Określ nazwę dla tabeli logicznej, na przykład my_orders_csv. Ta nazwa pojawi się jako nazwa strumienia w Qlik Talend Cloud.
Wzorzec wyszukiwania Wymagane Wprowadź wyrażenie regularne, aby dopasować nazwy plików, na przykład .csv$, aby wybrać wszystkie pliki CSV.
Prefiks wyszukiwania Opcjonalne Podaj prefiks ścieżki w zasobniku, aby zawęzić wyszukiwanie plików, na przykład exports/orders/. Użycie prefiksu poprawia wydajność poprzez ograniczenie liczby skanowanych plików.
Właściwości klucza Opcjonalne Wymień jedną lub więcej nazw kolumn, oddzielonych przecinkami, aby zdefiniować klucz podstawowy. Na przykład: id lub id,date.
Zastąpienia dat Opcjonalne Wymień nazwy kolumn, oddzielone przecinkami, które mają być traktowane jako pola daty i godziny. Użyj tej opcji, jeśli te pola nie zostaną automatycznie wykryte podczas wykrywania schematu.
Ogranicznik Opcjonalne Określ znak, który oddziela wartości w plikach. Wartością domyślną jest , (przecinek). Użyj \t dla plików rozdzielanych tabulatorami (TSV) lub | dla plików rozdzielanych pionową kreską (PSV). Jeśli pole pozostanie puste, system automatycznie wykryje ogranicznik na podstawie rozszerzenia pliku.

Replikowane tabele

Tabele są tworzone na podstawie konfiguracji tabeli (patrz wyżej). Każda tabela odpowiada zestawowi plików w zasobniku Google Cloud Storage (GCS), które pasują zarówno do określonego wzorca wyszukiwania, jak i opcjonalnego prefiksu. Łącznik automatycznie wykrywa schematy, próbkując do 5 plików na tabelę, odczytując co piąty wiersz, z maksymalnie 1000 rekordów na plik.

Replikacja jest przyrostowa i wykorzystuje znaczniki czasu modyfikacji plików do śledzenia zmian. Podczas każdej ekstrakcji łącznik przetwarza tylko te pliki, które zostały zmodyfikowane od ostatniej udanej synchronizacji, zgodnie z zapisem w zakładce synchronizacji.

Do każdej tabeli domyślnie dodawane są następujące kolumny systemowe:

Kolumna Opis
_sdc_source_bucket Nazwa zasobnika Google Cloud Storage (GCS), z którego odczytano rekord.
_sdc_source_file Pełna ścieżka pliku zawierającego rekord.
_sdc_source_lineno Numer wiersza rekordu w pliku.
_sdc_extra Wszelkie dodatkowe kolumny znalezione podczas analizowania, które nie pasują do wykrytego schematu. Dotyczy tylko plików JSONL.

Ograniczenia i uwagi

  • Poświadczenia konta usługi (project_id, client_email, private_key) muszą być podane jako pojedyncze wartości wyodrębnione z pliku klucza JSON; przesyłanie plików nie jest obsługiwane.
  • Pliki skompresowane w formacie Gzip (.gz) są obsługiwane. Łącznik odczytuje oryginalną nazwę pliku z nagłówka gzip, aby określić wewnętrzny format pliku. Pliki Gzip utworzone z opcją --no-name (brak nazwy pliku zapisanej w nagłówku) są pomijane.
  • Zagnieżdżona kompresja (na przykład plik .gz wewnątrz innego pliku .gz lub plik .zip wewnątrz pliku .zip) nie jest obsługiwana. Te pliki są pomijane.
  • Pliki z rozszerzeniami .csv, .txt, .tsv, .psv lub .jsonl są sprawdzane pod kątem magicznych bajtów gzip i dekompresowane, jeśli są skompresowane w formacie gzip — nawet jeśli plik nie ma rozszerzenia .gz.
  • Pole search_pattern używa składni wyrażeń regularnych, a nie wzorców glob. Na przykład użyj \.csv$ zamiast *.csv.
  • Łącznik ma wbudowaną logikę ponawiania prób z wykładniczym opóźnieniem dla limitów szybkości interfejsu API Google Cloud Storage (GCS) (429) i przejściowych błędów serwera (500, 502, 503, 504). Przed zgłoszeniem błędu podejmowanych jest do pięciu prób.
  • Pliki bez rozpoznanego rozszerzenia są pomijane i generowane jest ostrzeżenie.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!