Aterrisando dados de streaming para o Qlik Open Lakehouse
Você pode importar dados de uma fonte de streaming para o Amazon S3, prontos para a tarefa de transformação de streaming convertê-los no formato de tabela aberta do Iceberg.
A aterrisagem de dados de streaming em um Qlik Open Lakehouse requer um compartimento pré-configurado do Amazon S3. O Qlik Open Lakehouse é otimizado especificamente para fontes de dados de alto volume e é compatível com todas as fontes de dados de streaming compatíveis com o Qlik. Para obter mais informações sobre fontes de streaming compatíveis, consulte Conectando a fluxos de dados.
Os dados brutos são aterrisados no S3 no formato Avro e a tarefa de transformação de streaming converte os dados para o formato do Iceberg. A especificação do Iceberg permite que os dados sejam consultados a partir de qualquer mecanismo que ofereça suporte nativo ao Trino SQL, por exemplo, Amazon Athena, Ahana ou Starburst Enterprise. Opcionalmente, as tabelas podem ser espelhadas em seu armazém de dados na nuvem, onde podem ser consultadas sem duplicar os dados.
Preparações
-
Certifique-se de que você tenha configurado o Qlik Open Lakehouse. Isso inclui a criação de uma integração de rede, um cluster lakehouse e conexões de origem e destino. Para obter mais informações, consulte Configurando o Qlik Open Lakehouse.
-
Para espelhar dados no armazém de dados na nuvem, você deve primeiro criar um projeto do Qlik Open Lakehouse para ingerir seus dados e armazená-los usando o formato de tabela aberta do Iceberg. Você pode adicionar uma tarefa de espelhamento de dados após a tarefa de transformação de streaming. Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.
Criando uma tarefa de aterrisagem de streaming
Para criar uma tarefa de aterrisagem de streaming, faça o seguinte para primeiro criar o projeto:
-
Crie um projeto e selecione Pipeline de dados em Caso de uso.
-
Selecione Qlik Open Lakehouse em Plataforma de dados e estabeleça uma conexão com o catálogo de dados.
-
Configure uma área de armazenamento em Aterrisando a conexão de destino.
-
Clique em Criar para criar o projeto.
Quando você integra dados ou cria uma tarefa de aterrisagem no projeto, é criada uma tarefa de aterrisagem de streaming em vez de uma tarefa de Aterrisagem. Tarefas de aterrissagem de streaming operam e se comportam de forma semelhante a uma tarefa de Aterrissagem, exceto que elas aterrissam dados para armazenamento em nuvem de fontes de streaming. Para obter mais informações, consulte Conectando a fluxos de dados.
Todos os arquivos são aterrisados no formato Avro. Após a atualização dos dados de aterrisagem, a tarefa de transformação de streaming consome esses dados e atualiza as tabelas externas.
Exibindo informações da tarefa
Clique em na barra de menu para visualizar informações da tarefa, como:
-
Proprietário
-
Espaço
-
Plataforma de dados
-
ID do projeto
-
ID de tempo de execução da tarefa de dados
Operações
As seguintes operações estão disponíveis em uma tarefa de aterrisagem de streaming:
-
Soltando uma coluna
Selecione a coluna e clique em Remover.
Isso adicionará uma regra de transformação que remove a coluna dos dados recém-carregados depois que a tarefa for preparada e executada. Você pode restaurar a coluna para novos registros excluindo a regra de transformação.
-
Por exemplo, fazer hash em uma coluna para mascarar informações sensíveis.
Selecione Hash na coluna.
Isso gerará um hash SHA-256 da coluna de entrada após concatená-la com a String de hash salt. String de hash salt é uma configuração de projeto, disponível em projetos do Qlik Open Lakehouse.
O tipo de dados é alterado para String quando uma coluna é codificada com hash. Se você quiser manter os dados não codificados com hash também para usuários privilegiados, execute a codificação com hash mais tarde em uma tarefa de transformação.
-
Filtrando dados
Para obter mais informações, consulte Filtrando um conjunto de dados.
-
Renomeando um conjunto de dados
Clique em
no conjunto de dados e selecione Renomear.
Configurações
Para obter mais informações sobre as configurações de tarefas, consulte Configurações de aterrissagem no lake de streaming.