Fluxo de dados Apache Kafka

Conecte-se ao seu cluster Apache Kafka para usar como uma fonte de dados de fluxo em seus projetos do Qlik Open Lakehouse. As conexões Kafka só podem ser usadas com a tarefa de aterrisagem de streaming e a tarefa de transformação de streaming.

O Qlik Open Lakehouse permite que as organizações criem pipelines em tempo real, prontos para análise, em uma arquitetura aberta e escalável. Ao integrar o Apache Kafka como uma fonte de fluxo, o Qlik suporta a ingestão contínua de dados de eventos de alto volume em tabelas do Apache Iceberg. Essa combinação oferece disponibilidade de dados de baixa latência e evolução robusta de esquema, permitindo que as equipes operacionalizem insights em tempo real e acelerem as transformações a jusante.

Tarefas de aterrisagem de streaming e tarefas de transformação de streaming permitem que os tópicos do Kafka sejam componentes centrais dos seus projetos do Qlik Open Lakehouse. À medida que os dados fluem para o Iceberg, eles são rapidamente acessíveis para cargas de trabalho de análise, IA e aprendizado de máquina, apoiando a tomada de decisões sensíveis ao tempo e práticas escaláveis de engenharia de dados. O resultado é uma camada de dados unificada e otimizada para consulta que fortalece a confiabilidade e o desempenho das suas arquiteturas de streaming. Para analisar dados do Kafka usando o mecanismo de consulta do seu armazém de dados na nuvem, aterrisse e armazene os dados em um Qlik Open Lakehouse e espelhe os dados para o seu armazém usando uma Tarefa de espelhamento de dados.

Pré-requisitos

Os seguintes requisitos se aplicam ao criar e usar uma fonte de streaming Kafka:

Uma integração de rede que tenha conectividade de rede com os servidores de broker.
Certifique-se de que o cluster Kafka ao qual você deseja se conectar esteja acessível a partir da VPC onde o cluster Lakehouse que executará a tarefa de aterrissagem está localizado.
Uma conexão de origem de streaming Kafka requer uma plataforma de destino do Qlik Open Lakehouse.

Definindo as propriedades de conexão Kafka

Para configurar sua conexão Kafka, faça o seguinte:

Em Conexões, clique em Criar conexão.
Selecione o Espaço onde você deseja criar a conexão ou escolha Criar novo espaço de dados.
Selecione Kafka na lista de nomes do Conector ou use a caixa Pesquisar. Certifique-se de que o Tipo seja Fonte e de que a Categoria seja Streaming.
Configure as seguintes propriedades:

Fonte de dados

Defina suas propriedades de conexão da fonte de dados conforme a seguir:

Selecione sua Integração de rede na lista.
Em Servidores de broker, insira um único host usando o formato hostname:port, por exemplo, host1:9092.

Para inserir uma lista de hosts, use o formato: hostname:port, hostname:port, por exemplo, host1:9092,host2:9092.

Detalhes de autenticação

Selecione seu Método de autenticação na lista:
- SASL/SCRAM-SHA-512: esta opção autentica com um nome de usuário e senha usando o mecanismo SCRAM-SHA-512. Essa é a variante SCRAM mais segura e requer que credenciais SCRAM-SHA-512 correspondentes sejam configuradas no cluster Kafka.

Para usar um método de autenticação alternativo que não esteja listado, entre em contato com o suporte Qlik.

SASL/SCRAM-SHA-256

Insira o Nome de usuário e a Senha para sua conexão.

TLS

Opcionalmente, você pode adicionar uma Autoridade de Certificação (CA).

Para adicionar uma CA, selecione Usar CA de confiança personalizada.
Em Caminho da CA, insira o caminho do arquivo da CA para carregar no Qlik Cloud. O arquivo da CA está disponível para os clusters que executam as tarefas.

Propriedades adicionais do Kafka

As propriedades adicionais do Kafka são opcionais.

Adicione uma Chave e um Valor para todas as tags que você deseja incluir e que o ajudam a identificar, organizar e gerenciar recursos.

Conexão do Schema Registry

O servidor do Schema Registry é opcional.

Para se conectar a um Schema Registry, clique em Configurar um servidor do Schema Registry e configure as definições:

URI do Schema Registry: insira a URI no formato http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Nome de usuário: insira o nome de usuário para a conexão do servidor.
Senha: insira a senha para a conexão do servidor.

TLS da conexão do Schema Registry

Se você optar por configurar um servidor de registro de esquema, você tem a opção de adicionar uma Autoridade de Certificação (CA).

Para adicionar uma CA, selecione Usar CA de confiança personalizada.
Em Caminho da CA, insira o caminho do arquivo da CA para carregar no Qlik Cloud. O arquivo da CA está disponível para os clusters que executam as tarefas.

Criar a conexão

Quando você tiver configurado seu método de segurança, conclua as seguintes etapas para criar sua conexão:

Em Nome, insira o nome de exibição da conexão, por exemplo, My Kafka Streaming Source connection.
Clique em Testar conexão para validar as credenciais.
Clique em Criar.

Mapeando tópicos para conjuntos de dados

Os seguintes casos de uso são compatíveis ao ingerir de uma fonte Kafka:

Tópico	Conjunto de dados de destino	Caso de uso	Mapeamento
Um	Um	Cada tópico é carregado para um conjunto de dados de destino.	Compatível no mapeamento de conjuntos de dados da tarefa de aterrisagem de streaming.
Um	Muitos	Duplicar um tópico para vários conjuntos de dados.	Compatível usando Adicionar ao destino várias vezes.
Um	Muitos	Dividir um evento em vários destinos. Por exemplo, um evento contém orders e order lines que são divididos em vários conjuntos de dados.	Compatível na tarefa de transformação de streaming. Duplique um conjunto de dados e selecione campos diferentes em cada conjunto de dados; ou use o processador Fork e o processador Select columns no fluxo de transformação.
Um	Muitos	Divida um tópico em vários conjuntos de dados com base em valores de coluna específicos.	Compatível na tarefa de transformação de streaming. Configure um processador Filter para cada valor de coluna usado para dividir o tópico em diferentes conjuntos de dados. Para lidar com registros não correspondentes, configure um processador Filter adicional que gera dados não correspondentes para um conjunto de dados separado.
Muitos	Um	Ingira todos os tópicos que atendem a um critério específico para o mesmo conjunto de dados de destino, ou tópicos específicos para o mesmo conjunto de dados.	Compatível no mapeamento de conjuntos de dados da tarefa de aterrisagem de streaming. Se vários tópicos forem carregados em um único conjunto de dados e uma das tarefas de carregamento de tópicos falhar, então o conjunto de dados apresenta erros e o carregamento de outros tópicos será interrompido.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui