Vai al contenuto principale Passa a contenuto complementare

Flusso di dati Apache Kafka

Connettiti al tuo cluster Apache Kafka per usarlo come sorgente dati in streaming nei tuoi progetti Qlik Open Lakehouse. Le connessioni Kafka possono essere utilizzate solo con l'attività di trasferimento in streaming e l'attività di trasformazione in streaming.

Qlik Open Lakehouse consente alle organizzazioni di creare pipeline in tempo reale, pronte per l'analisi, su un'architettura aperta e scalabile. Integrando Apache Kafka come sorgente in streaming, Qlik supporta l'ingestione continua di dati evento ad alto volume in tabelle Apache Iceberg. Questa combinazione offre disponibilità dei dati a bassa latenza e una solida evoluzione dello schema, consentendo ai team di rendere operativi gli insight in tempo reale e accelerare le trasformazioni a valle.

Le attività di trasferimento in streaming e le attività di trasformazione in streaming consentono agli argomenti Kafka di essere componenti centrali dei tuoi progetti Qlik Open Lakehouse. Man mano che i dati fluiscono in Iceberg, sono rapidamente accessibili per carichi di lavoro di analisi, IA e machine learning, supportando il processo decisionale sensibile al tempo e pratiche di ingegneria dei dati scalabili. Il risultato è un livello di dati unificato e ottimizzato per le query che rafforza l'affidabilità e le prestazioni delle tue architetture di streaming. Per analizzare i dati da Kafka utilizzando il motore di query del tuo data warehouse cloud, trasferisci e archivia i dati in un Qlik Open Lakehouse e replica i dati nel tuo warehouse utilizzando un'attività Mirror data.

Prerequisiti

I seguenti requisiti si applicano quando si crea e si utilizza una sorgente di flusso Kafka:

  • Un'integrazione di rete che dispone di connettività di rete ai server broker.

  • Assicurarsi che il cluster Kafka a cui si desidera connettersi sia accessibile dalla VPC in cui si trova il cluster Lakehouse che eseguirà l'attività di trasferimento.

  • Una connessione a una sorgente di flusso Kafka richiede una piattaforma di destinazione Qlik Open Lakehouse.

Impostazione delle proprietà di connessione Kafka

Per configurare la connessione Kafka, fare quanto segue:

  1. In Connessioni, fare clic su Crea connessione.

  2. Selezionare lo Spazio in cui si desidera creare la connessione o scegliere Crea nuovo spazio dati.

  3. Selezionare Kafka dall'elenco dei nomi del Connettore o utilizzare la casella di ricerca. Assicurarsi che il Tipo sia Origine e che la Categoria sia Streaming.

  4. Configurare le seguenti proprietà:

Sorgente dati

Impostare le proprietà di connessione della sorgente dati come segue:

  • Selezionare l'integrazione di rete dall'elenco.

  • In Server broker, immettere un singolo host utilizzando il formato hostname:port, ad esempio host1:9092.

    Per immettere un elenco di host, utilizzare il formato: hostname:port, hostname:port, ad esempio host1:9092,host2:9092.

Dettagli di autenticazione

  • Selezionare il metodo di autenticazione dall'elenco:

    • SASL/SCRAM-SHA-512: Questa opzione esegue l'autenticazione con un nome utente e una password utilizzando il meccanismo SCRAM-SHA-512. Questa è la variante SCRAM più sicura e richiede che le credenziali SCRAM-SHA-512 corrispondenti siano configurate nel cluster Kafka.

Nota informaticaPer utilizzare un metodo di autenticazione alternativo non elencato, contattare il supporto Qlik.

:

SASL/SCRAM-SHA-256

Immettere Nome utente e Password per la connessione.

TLS

Facoltativamente, è possibile aggiungere un'autorità di certificazione (CA).

  • Per aggiungere una CA, selezionare Usa CA di attendibilità personalizzata.

  • In Percorso CA, immettere il percorso del file CA da caricare in Qlik Cloud. Il file CA è disponibile per i cluster che eseguono le attività.

Proprietà Kafka aggiuntive

Le proprietà Kafka aggiuntive sono facoltative.

Aggiungere una Chiave e un Valore per i tag che si desidera includere e che consentono di identificare, organizzare e gestire le risorse.

Connessione al registro schema

Il server del registro schema è facoltativo.

Per connettersi a un registro schema, fare clic su Configura un server del registro schema e configurare le impostazioni:

  • URI del Registro Schema: Immettere l'URI nel formato, http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.

  • Nome utente: Immettere il nome utente per la connessione al server.

  • Password: Immettere la password per la connessione al server.

TLS della connessione del registro schema

Se si sceglie di configurare un server del registro schema, è possibile aggiungere un'Autorità di certificazione (CA).

  • Per aggiungere una CA, selezionare Usa CA attendibile personalizzata.

  • In Percorso CA, immettere il percorso del file CA da caricare in Qlik Cloud. Il file CA è disponibile per i cluster che eseguono le attività.

Crea la connessione

Dopo aver configurato il metodo di sicurezza, seguire i passaggi seguenti per creare la connessione:

  • In Nome, inserire il nome visualizzato per la connessione, ad esempio, My Kafka Streaming Source connection.

  • Fare clic su Test connessione per convalidare le credenziali.

  • Fare clic su Crea.

Mappatura degli argomenti ai set di dati

I seguenti casi d'uso sono supportati durante l'ingestione da un'origine Kafka:

ArgomentoSet di dati di destinazioneCaso di utilizzoMappatura
UnoUnoOgni argomento viene caricato in un set di dati di destinazione.Supportato nella mappatura dei set di dati dell'attività di trasferimento in streaming.
UnoMoltiDuplica un argomento in più set di dati.Supportato utilizzando Aggiungi a destinazione più volte.
Uno MoltiDividere un evento in più destinazioni. Ad esempio, un evento contiene orders e order lines che vengono suddivisi in più set di dati.Supportato nell'attività di trasformazione in streaming. Duplicare un set di dati e selezionare campi diversi in ogni set di dati; oppure utilizzare il processore Fork e il processore Select columns all'interno del flusso di trasformazione.
UnoMoltiDividere un argomento in più set di dati in base a valori di colonna specifici.Supportato nel task di trasformazione in streaming. Configurare un processore di filtro per ogni valore di colonna utilizzato per dividere l'argomento in diversi set di dati. Per gestire i record non corrispondenti, configurare un ulteriore processore di filtro che invia i dati non corrispondenti a un set di dati separato.
MoltiUnoAcquisisci tutti gli argomenti che soddisfano criteri specifici nello stesso set di dati di destinazione, o argomenti specifici nello stesso set di dati.Supportato nella mappatura dei set di dati dell'attività di trasferimento in streaming. Se più argomenti vengono caricati in un singolo set di dati e una delle attività di caricamento degli argomenti fallisce, il set di dati genera errori e il caricamento degli altri argomenti viene interrotto.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!