Strumień danych Apache Kafka
Połącz się z klastrem Apache Kafka, aby używać go jako strumieniowego źródła danych w projektach Qlik Open Lakehouse. Połączenia Kafka mogą być używane tylko z zadaniem umieszczania strumieniowego i zadaniem transformacji strumieniowej.
Qlik Open Lakehouse umożliwia organizacjom budowanie potoków gotowych do analizy w czasie rzeczywistym na otwartej i skalowalnej architekturze. Dzięki integracji Apache Kafka jako źródła strumieniowego, Qlik obsługuje ciągłe pozyskiwanie dużych ilości danych zdarzeń do tabel Apache Iceberg. Ta kombinacja zapewnia dostępność danych z niskimi opóźnieniami i solidną ewolucję schematu, umożliwiając zespołom operacjonalizację analiz w czasie rzeczywistym i przyspieszenie dalszych transformacji.
Zadania umieszczania strumieniowego i zadania transformacji strumieniowej umożliwiają, aby tematy Kafka były centralnymi komponentami Twoich projektów Qlik Open Lakehouse. Gdy dane strumieniowo trafiają do Iceberg, są szybko dostępne do analiz, sztucznej inteligencji i obciążeń uczenia maszynowego, wspierając podejmowanie decyzji wrażliwych na czas i skalowalne praktyki inżynierii danych. Rezultatem jest ujednolicona, zoptymalizowana pod kątem zapytań warstwa danych, która wzmacnia niezawodność i wydajność architektur strumieniowych. Aby analizować dane z Kafka za pomocą silnika zapytań hurtowni danych w chmurze, umieść i przechowuj dane w Qlik Open Lakehouse i odzwierciedlaj dane w swojej hurtowni za pomocą zadania Mirror data.
Wymagania wstępne
Następujące wymagania mają zastosowanie podczas tworzenia i używania źródła strumieniowego Kafka:
-
Integracja sieciowa, która ma łączność sieciową z serwerami brokera.
-
Upewnij się, że klaster Kafka, z którym chcesz się połączyć, jest dostępny z sieci VPC, w której znajduje się klaster Lakehouse, który będzie uruchamiał zadanie umieszczania.
-
Połączenie ze źródłem strumieniowym Kafka wymaga platformy docelowej Qlik Open Lakehouse.
Ustawianie właściwości połączenia Kafka
Aby skonfigurować połączenie Kafka, wykonaj następujące czynności:
-
W obszarze Połączenia kliknij Utwórz połączenie.
-
Wybierz Przestrzeń, w której chcesz utworzyć połączenie, lub wybierz Utwórz nową przestrzeń danych.
-
Wybierz Kafka z listy Nazwa łącznika lub użyj pola Wyszukaj. Upewnij się, że Typ to Źródło, a Kategoria to Przesyłanie strumieniowe.
-
Skonfiguruj następujące właściwości:
Źródło danych
Ustaw właściwości połączenia ze źródłem danych w następujący sposób:
-
Wybierz integrację sieciową z listy.
-
W serwerach brokera wprowadź pojedynczy host, używając formatu hostname:port, na przykład host1:9092.
Aby wprowadzić listę hostów, użyj formatu: hostname:port, hostname:port, na przykład host1:9092,host2:9092.
Szczegóły uwierzytelniania
-
Wybierz swoją metodę uwierzytelniania z listy:
-
SASL/SCRAM-SHA-512: Ta opcja uwierzytelnia za pomocą nazwy użytkownika i hasła, używając mechanizmu SCRAM-SHA-512. Jest to najbezpieczniejszy wariant SCRAM, który wymaga skonfigurowania pasujących poświadczeń SCRAM-SHA-512 w klastrze Kafka.
-
:
SASL/SCRAM-SHA-256
Wprowadź Nazwę użytkownika i Hasło dla swojego połączenia.
TLS
Opcjonalnie możesz dodać Urząd Certyfikacji (CA).
Aby dodać CA, wybierz Użyj niestandardowego zaufanego CA.
W Ścieżka CA wprowadź ścieżkę pliku CA do przesłania do Qlik Cloud. Plik CA jest dostępny dla klastrów uruchamiających zadania.
Dodatkowe właściwości Kafka
Dodatkowe właściwości Kafka są opcjonalne.
Dodaj klucz i wartość dla dowolnych tagów, które chcesz dołączyć, aby ułatwić identyfikację, organizowanie i zarządzanie zasobami.
Połączenie rejestru schematów
Serwer rejestru schematów jest opcjonalny.
Aby połączyć się z rejestrem schematów, kliknij Skonfiguruj serwer rejestru schematów i skonfiguruj ustawienia:
Identyfikator URI rejestru schematów: Wprowadź identyfikator URI w formacie http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Nazwa użytkownika: Wprowadź nazwę użytkownika dla połączenia z serwerem.
Hasło: Wprowadź hasło dla połączenia z serwerem.
Połączenie rejestru schematów TLS
Jeśli zdecydujesz się skonfigurować serwer rejestru schematów, masz możliwość dodania urzędu certyfikacji (CA).
Aby dodać urząd certyfikacji, wybierz Użyj niestandardowego zaufanego urzędu certyfikacji.
W polu Ścieżka urzędu certyfikacji wprowadź ścieżkę pliku urzędu certyfikacji do przekazania do Qlik Cloud. Plik urzędu certyfikacji jest dostępny dla klastrów uruchamiających zadania.
Utwórz połączenie
Po skonfigurowaniu metody zabezpieczeń wykonaj następujące kroki, aby utworzyć połączenie:
W Nazwa wprowadź nazwę wyświetlaną dla połączenia, na przykład My Kafka Streaming Source connection.
Kliknij Testuj połączenie, aby zweryfikować poświadczenia.
Kliknij Utwórz.
Mapowanie tematów na zestawy danych
Następujące przypadki użycia są obsługiwane podczas pozyskiwania danych ze źródła Kafka:
| Temat | Docelowy zestaw danych | Zastosowanie | Mapowanie |
|---|---|---|---|
| Jeden | Jeden | Każdy temat jest ładowany do docelowego zestawu danych. | Obsługiwane w mapowaniu zestawów danych w zadaniu umieszczania strumieniowego. |
| Jeden | Wiele | Duplikuj temat do wielu zestawów danych. | Obsługiwane przez wielokrotne użycie Dodaj do elementu docelowego. |
| Jeden | Wiele | Podziel zdarzenie na wiele celów. Na przykład zdarzenie zawiera orders i order lines, które są dzielone na wiele zestawów danych. | Obsługiwane w zadaniu transformacji strumieniowej. Zduplikuj zestaw danych i wybierz różne pola w każdym zestawie danych; lub użyj procesora rozgałęziającego i procesora wyboru kolumn w ramach przepływu transformacji. |
| Jeden | Wiele | Podziel temat na wiele zestawów danych na podstawie określonych wartości kolumn. | Obsługiwane w zadaniu transformacji strumieniowej. Skonfiguruj procesor filtrujący dla każdej wartości kolumny użytej do podzielenia tematu na różne zestawy danych. Aby obsłużyć niezgodne rekordy, skonfiguruj dodatkowy procesor filtrujący, który wyprowadza niezgodne dane do oddzielnego zestawu danych. |
| Wiele | Jeden | Pobierz wszystkie tematy spełniające określone kryteria do tego samego docelowego zestawu danych lub określone tematy do tego samego zestawu danych. | Obsługiwane w mapowaniu zestawów danych dla zadania umieszczania strumieniowego. Jeśli wiele tematów zostanie załadowanych do pojedynczego zestawu danych i jedno z zadań ładowania tematów zakończy się niepowodzeniem, wówczas zestaw danych zgłasza błąd, a ładowanie pozostałych tematów zostaje przerwane. |