Conectando a fluxos de dados

Os seguintes serviços de streaming são suportados em projetos do Qlik Open Lakehouse. Os dados de eventos são continuamente ingeridos para garantir a disponibilidade quase em tempo real para integração de dados downstream, análise e IA, permitindo pipelines de baixa latência que refletem a atividade operacional mais atual.

Serviços de streaming, como o Apache Kafka e o Amazon Kinesis, fornecem pipelines duráveis e de alta taxa de transferência para capturar eventos operacionais à medida que ocorrem. Ao contrário das fontes baseadas em arquivos que dependem da ingestão em lote, as fontes de streaming entregam dados continuamente à medida que os eventos são produzidos, permitindo o processamento quase em tempo real sem esperar que os arquivos sejam gerados ou agendados. Os produtores publicam mensagens estruturadas ou semiestruturadas que retêm seu esquema e suportam particionamento. Todas as atualizações e exclusões para o mesmo registro devem usar a mesma chave de partição. O Kafka e o Kinesis garantem a ordenação apenas dentro de uma única partição ou shard, não em todo o tópico ou fluxo, então usar uma chave de partição consistente garante que as alterações para um determinado registro sejam processadas na sequência correta. Qlik também oferece suporte ao Amazon S3 como uma fonte de streaming para ingestão contínua de dados de eventos.

Ingestão de streaming versus ingestão em lote

A diferença entre fontes de dados de streaming e em lote é a seguinte:

Com ambas as fontes, os eventos são ingeridos eficientemente a cada minuto, suportando processamento de baixa latência e análises quase em tempo real.
Com fontes sem streaming, há primeiro um carregamento total dos dados existentes e, em seguida, as alterações são ingeridas. Você também pode recarregar os dados de carregamento total da fonte.
Com fontes de streaming, não há nenhuma distinção clara entre o carregamento inicial e os eventos posteriores. O Qlik pode gerenciar a retenção e também suporta partições.

As tarefas de streaming são cobradas com base no uso de computação (vCores x tempo de execução) em vez do volume de dados.

Em um projeto do Qlik Open Lakehouse, as fontes de streaming só podem ser usadas com a Tarefa de aterrisagem de streaming e a Tarefa de transformação de streaming.

Os dados de streaming são ingeridos usando uma Tarefa de aterrisagem de streaming e, em vez de processar arquivos discretos, a Tarefa de aterrisagem de streaming lê os eventos à medida que chegam, aterrissa os dados no Amazon S3 e persiste os eventos como arquivos Avro. Essa abordagem preserva a evolução do esquema, suporta tipos de dados complexos como structs e oferece armazenamento eficiente com desempenho de consulta otimizado, mantendo um modelo de ingestão contínua.
Ao integrar dados de uma fonte de fluxo, uma Tarefa de transformação de streaming é adicionada automaticamente para cada conjunto de dados que será armazenado no formato do Iceberg. Opcionalmente, a Tarefa de transformação de streaming pode ser usada para padronizar estruturas, enriquecer cargas de eventos ou alinhar dados com modelos de consumo downstream.
Uma Tarefa de espelhamento de dados permite que conjuntos de dados de fontes de streaming sejam espelhados para armazéns de dados na nuvem, permitindo que sistemas downstream consumam eventos de streaming sem duplicar dados. Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.

Limitações

As seguintes limitações aplicam-se a todas as fontes de dados:

Se seus arquivos forem de tipos diferentes, o que pode ocorrer quando eles se originam de várias fontes ou versões, a tarefa de transformação criada usando um único arquivo de amostra (por exemplo, durante o onboarding) não considera automaticamente essas diferenças.
Se você alterar os tipos de dados na tarefa de aterrisagem, por exemplo, porque precisa fazer hash dos dados, certifique-se de que os tipos de dados de transformação correspondam aos novos tipos de dados.

Fontes com suporte

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui