Aterrisando dados de streaming para o Qlik Open Lakehouse

Você pode importar dados de uma fonte de streaming para o Amazon S3, prontos para a tarefa de transformação de streaming convertê-los no formato de tabela aberta do Iceberg.

A aterrisagem de dados de streaming em um Qlik Open Lakehouse requer um compartimento pré-configurado do Amazon S3. O Qlik Open Lakehouse é otimizado especificamente para fontes de dados de alto volume e é compatível com todas as fontes de dados de streaming compatíveis com o Qlik. Para obter mais informações sobre fontes de streaming compatíveis, consulte Conectando a fluxos de dados.

Os dados brutos são aterrisados no S3 no formato Avro e a tarefa de transformação de streaming converte os dados para o formato do Iceberg. A especificação do Iceberg permite que os dados sejam consultados a partir de qualquer mecanismo que ofereça suporte nativo ao Trino SQL, por exemplo, Amazon Athena, Ahana ou Starburst Enterprise. Opcionalmente, as tabelas podem ser espelhadas em seu armazém de dados na nuvem, onde podem ser consultadas sem duplicar os dados.

Preparações

Certifique-se de que você tenha configurado o Qlik Open Lakehouse. Isso inclui a criação de uma integração de rede, um cluster lakehouse e conexões de origem e destino. Para obter mais informações, consulte Configurando o Qlik Open Lakehouse.
Para espelhar dados no armazém de dados na nuvem, você deve primeiro criar um projeto do Qlik Open Lakehouse para ingerir seus dados e armazená-los usando o formato de tabela aberta do Iceberg. Você pode adicionar uma tarefa de espelhamento de dados após a tarefa de transformação de streaming. Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.

Criando uma tarefa de aterrisagem de streaming

Para criar uma tarefa de aterrisagem de streaming, faça o seguinte para primeiro criar o projeto:

Crie um projeto e selecione Pipeline de dados em Caso de uso.
Selecione Qlik Open Lakehouse em Plataforma de dados e estabeleça uma conexão com o catálogo de dados.
Configure uma área de armazenamento em Aterrisando a conexão de destino.
Clique em Criar para criar o projeto.

Quando você integra dados ou cria uma tarefa de aterrisagem no projeto, é criada uma tarefa de aterrisagem de streaming em vez de uma tarefa de Aterrisagem. Tarefas de aterrissagem de streaming operam e se comportam de forma semelhante a uma tarefa de Aterrissagem, exceto que elas aterrissam dados para armazenamento em nuvem de fontes de streaming. Para obter mais informações, consulte Conectando a fluxos de dados.

Todos os arquivos são aterrisados no formato Avro. Após a atualização dos dados de aterrisagem, a tarefa de transformação de streaming consome esses dados e atualiza as tabelas externas.

Exibindo informações da tarefa

Clique em na barra de menu para visualizar informações da tarefa, como:

Proprietário
Espaço
Plataforma de dados
ID do projeto
ID de tempo de execução da tarefa de dados

Operações

As seguintes operações estão disponíveis em uma tarefa de aterrisagem de streaming:

Soltando uma coluna

Selecione a coluna e clique em Remover.

Isso adicionará uma regra de transformação que remove a coluna dos dados recém-carregados depois que a tarefa for preparada e executada. Você pode restaurar a coluna para novos registros excluindo a regra de transformação.
Por exemplo, fazer hash em uma coluna para mascarar informações sensíveis.

Selecione Hash na coluna.

Isso gerará um hash SHA-256 da coluna de entrada após concatená-la com uma string de hash salt. Você define a string de hash salt nas configurações do projeto em Metadados > Hash. Essa configuração está disponível apenas em projetos do Qlik Open Lakehouse. Para obter mais informações, consulte Metadados

O tipo de dados é alterado para String quando uma coluna é codificada com hash. Se você quiser manter os dados não codificados com hash também para usuários privilegiados, execute a codificação com hash mais tarde em uma tarefa de transformação.
Filtrando dados

Para obter mais informações, consulte Filtrando um conjunto de dados.
Renomeando um conjunto de dados

Clique em no conjunto de dados e selecione Renomear.

Excluindo uma tarefa

Você pode excluir a tarefa de dados se ela não estiver em execução e não houver dependências para tarefas downstream no mesmo projeto.

Na exibição Projeto de pipeline do projeto, clique em em uma tarefa e selecione Excluir.

Os artefatos (tabelas e exibições) criados pela tarefa também serão excluídos, a menos que você selecione a opção para mantê-los.

Lembre-se de que os artefatos que você mantiver não serão mais atualizados pela tarefa.

Configurações

Para obter mais informações sobre as configurações de tarefas, consulte Configurações de aterrissagem no lake de streaming.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui