Strumień danych Apache Kafka

Połącz się z klastrem Apache Kafka, aby używać go jako strumieniowego źródła danych w projektach Qlik Open Lakehouse. Połączenia Kafka mogą być używane tylko z zadaniem umieszczania strumieniowego i zadaniem transformacji strumieniowej.

Qlik Open Lakehouse umożliwia organizacjom budowanie potoków gotowych do analizy w czasie rzeczywistym na otwartej i skalowalnej architekturze. Dzięki integracji Apache Kafka jako źródła strumieniowego, Qlik obsługuje ciągłe pozyskiwanie dużych ilości danych zdarzeń do tabel Apache Iceberg. Ta kombinacja zapewnia dostępność danych z niskimi opóźnieniami i solidną ewolucję schematu, umożliwiając zespołom operacjonalizację analiz w czasie rzeczywistym i przyspieszenie dalszych transformacji.

Zadania umieszczania strumieniowego i zadania transformacji strumieniowej umożliwiają, aby tematy Kafka były centralnymi komponentami Twoich projektów Qlik Open Lakehouse. Gdy dane strumieniowo trafiają do Iceberg, są szybko dostępne do analiz, sztucznej inteligencji i obciążeń uczenia maszynowego, wspierając podejmowanie decyzji wrażliwych na czas i skalowalne praktyki inżynierii danych. Rezultatem jest ujednolicona, zoptymalizowana pod kątem zapytań warstwa danych, która wzmacnia niezawodność i wydajność architektur strumieniowych. Aby analizować dane z Kafka za pomocą silnika zapytań hurtowni danych w chmurze, umieść i przechowuj dane w Qlik Open Lakehouse i odzwierciedlaj dane w swojej hurtowni za pomocą zadania Mirror data.

Wymagania wstępne

Następujące wymagania mają zastosowanie podczas tworzenia i używania źródła strumieniowego Kafka:

Integracja sieciowa, która ma łączność sieciową z serwerami brokera.
Upewnij się, że klaster Kafka, z którym chcesz się połączyć, jest dostępny z sieci VPC, w której znajduje się klaster Lakehouse, który będzie uruchamiał zadanie umieszczania.
Połączenie ze źródłem strumieniowym Kafka wymaga platformy docelowej Qlik Open Lakehouse.

Ustawianie właściwości połączenia Kafka

Aby skonfigurować połączenie Kafka, wykonaj następujące czynności:

W obszarze Połączenia kliknij Utwórz połączenie.
Wybierz Przestrzeń, w której chcesz utworzyć połączenie, lub wybierz Utwórz nową przestrzeń danych.
Wybierz Kafka z listy Nazwa łącznika lub użyj pola Wyszukaj. Upewnij się, że Typ to Źródło, a Kategoria to Przesyłanie strumieniowe.
Skonfiguruj następujące właściwości:

Źródło danych

Ustaw właściwości połączenia ze źródłem danych w następujący sposób:

Wybierz integrację sieciową z listy.
W serwerach brokera wprowadź pojedynczy host, używając formatu hostname:port, na przykład host1:9092.

Aby wprowadzić listę hostów, użyj formatu: hostname:port, hostname:port, na przykład host1:9092,host2:9092.

Szczegóły uwierzytelniania

Wybierz swoją metodę uwierzytelniania z listy:
- SASL/SCRAM-SHA-512: Ta opcja uwierzytelnia za pomocą nazwy użytkownika i hasła, używając mechanizmu SCRAM-SHA-512. Jest to najbezpieczniejszy wariant SCRAM, który wymaga skonfigurowania pasujących poświadczeń SCRAM-SHA-512 w klastrze Kafka.

Aby użyć alternatywnej metody uwierzytelniania, która nie znajduje się na liście, skontaktuj się z pomocą techniczną Qlik.

SASL/SCRAM-SHA-256

Wprowadź Nazwę użytkownika i Hasło dla swojego połączenia.

TLS

Opcjonalnie możesz dodać Urząd Certyfikacji (CA).

Aby dodać CA, wybierz Użyj niestandardowego zaufanego CA.
W Ścieżka CA wprowadź ścieżkę pliku CA do przesłania do Qlik Cloud. Plik CA jest dostępny dla klastrów uruchamiających zadania.

Dodatkowe właściwości Kafka

Dodatkowe właściwości Kafka są opcjonalne.

Dodaj klucz i wartość dla dowolnych tagów, które chcesz dołączyć, aby ułatwić identyfikację, organizowanie i zarządzanie zasobami.

Połączenie rejestru schematów

Serwer rejestru schematów jest opcjonalny.

Aby połączyć się z rejestrem schematów, kliknij Skonfiguruj serwer rejestru schematów i skonfiguruj ustawienia:

Identyfikator URI rejestru schematów: Wprowadź identyfikator URI w formacie http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Nazwa użytkownika: Wprowadź nazwę użytkownika dla połączenia z serwerem.
Hasło: Wprowadź hasło dla połączenia z serwerem.

Połączenie rejestru schematów TLS

Jeśli zdecydujesz się skonfigurować serwer rejestru schematów, masz możliwość dodania urzędu certyfikacji (CA).

Aby dodać urząd certyfikacji, wybierz Użyj niestandardowego zaufanego urzędu certyfikacji.
W polu Ścieżka urzędu certyfikacji wprowadź ścieżkę pliku urzędu certyfikacji do przekazania do Qlik Cloud. Plik urzędu certyfikacji jest dostępny dla klastrów uruchamiających zadania.

Utwórz połączenie

Po skonfigurowaniu metody zabezpieczeń wykonaj następujące kroki, aby utworzyć połączenie:

W Nazwa wprowadź nazwę wyświetlaną dla połączenia, na przykład My Kafka Streaming Source connection.
Kliknij Testuj połączenie, aby zweryfikować poświadczenia.
Kliknij Utwórz.

Mapowanie tematów na zestawy danych

Następujące przypadki użycia są obsługiwane podczas pozyskiwania danych ze źródła Kafka:

Temat	Docelowy zestaw danych	Zastosowanie	Mapowanie
Jeden	Jeden	Każdy temat jest ładowany do docelowego zestawu danych.	Obsługiwane w mapowaniu zestawów danych w zadaniu umieszczania strumieniowego.
Jeden	Wiele	Duplikuj temat do wielu zestawów danych.	Obsługiwane przez wielokrotne użycie Dodaj do elementu docelowego.
Jeden	Wiele	Podziel zdarzenie na wiele celów. Na przykład zdarzenie zawiera orders i order lines, które są dzielone na wiele zestawów danych.	Obsługiwane w zadaniu transformacji strumieniowej. Zduplikuj zestaw danych i wybierz różne pola w każdym zestawie danych; lub użyj procesora rozgałęziającego i procesora wyboru kolumn w ramach przepływu transformacji.
Jeden	Wiele	Podziel temat na wiele zestawów danych na podstawie określonych wartości kolumn.	Obsługiwane w zadaniu transformacji strumieniowej. Skonfiguruj procesor filtrujący dla każdej wartości kolumny użytej do podzielenia tematu na różne zestawy danych. Aby obsłużyć niezgodne rekordy, skonfiguruj dodatkowy procesor filtrujący, który wyprowadza niezgodne dane do oddzielnego zestawu danych.
Wiele	Jeden	Pobierz wszystkie tematy spełniające określone kryteria do tego samego docelowego zestawu danych lub określone tematy do tego samego zestawu danych.	Obsługiwane w mapowaniu zestawów danych dla zadania umieszczania strumieniowego. Jeśli wiele tematów zostanie załadowanych do pojedynczego zestawu danych i jedno z zadań ładowania tematów zakończy się niepowodzeniem, wówczas zestaw danych zgłasza błąd, a ładowanie pozostałych tematów zostaje przerwane.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię