Ir para conteúdo principal Pular para conteúdo complementar

Aterrisando dados de streaming para o Qlik Open Lakehouse

Os dados são aterrisados no Amazon S3, prontos para a tarefa de transformação de streaming, para convertê-los no formato de tabela aberta do Iceberg. Você pode aterrisar dados de qualquer fonte de streaming aceita pela Qlik.

A aterrisagem de dados de streaming em um Qlik Open Lakehouse requer um compartimento pré-configurado do Amazon S3. O Qlik Open Lakehouse é otimizado especificamente para fontes de dados de alto volume e é compatível com todas as fontes de dados de streaming compatíveis com o Qlik. Para obter mais informações sobre fontes de streaming compatíveis, consulte Conectando-se a fluxos de dados.

Os dados brutos são aterrisados no S3 no formato Avro e a tarefa de transformação de streaming converte os dados para o formato do Iceberg. A especificação do Iceberg permite que os dados sejam consultados a partir de qualquer mecanismo que ofereça suporte nativo ao Trino SQL, por exemplo, Amazon Athena, Ahana ou Starburst Enterprise. Opcionalmente, as tabelas podem ser espelhadas em seu armazém de dados na nuvem, onde podem ser consultadas sem duplicar os dados.

A aterrisagem de dados em um Qlik Open Lakehouse está disponível em projetos com uma conexão de destino do AWS Glue Data Catalog.

Preparações

  • Um cluster de lakehouse de armazenamento é necessário para executar a ingestão e deve ser configurado antes de criar seu projeto.

  • Embora você possa configurar suas configurações de conexão de origem e destino no assistente de configuração, para simplificar o procedimento de configuração, é recomendável fazer isso antes de criar a tarefa.

  • Para espelhar dados no armazém de dados na nuvem, você deve primeiro criar um projeto do Qlik Open Lakehouse para ingerir seus dados e armazená-los usando o formato de tabela aberta do Iceberg. Você pode adicionar uma tarefa de espelhamento de dados após a tarefa de transformação de streaming. Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.

Criando uma tarefa de aterrisagem de streaming

Para criar uma tarefa de aterrisagem de streaming, faça o seguinte para primeiro criar o projeto:

  1. Crie um projeto e selecione Pipeline de dados em Caso de uso.

  2. Selecione Qlik Open Lakehouse em Plataforma de dados e estabeleça uma conexão com o catálogo de dados.

  3. Configure uma área de armazenamento em Aterrisando a conexão de destino.

  4. Selecione o Cluster de lakehouse de armazenamento para realizar a ingestão e otimização dos dados.

  5. Clique em Criar para criar o projeto.

Quando você integra dados ou cria uma tarefa de aterrisagem no projeto, é criada uma tarefa de aterrisagem de streaming em vez de uma tarefa de Aterrisagem. Tarefas de aterrissagem de streaming operam e se comportam de forma semelhante a uma tarefa de Aterrissagem, exceto que elas aterrissam dados para armazenamento em nuvem de fontes de streaming. Para obter mais informações, consulte Conectando a fluxos de dados.

Todos os arquivos são aterrisados no formato Avro. Após a atualização dos dados de aterrisagem, a tarefa de transformação de streaming consome esses dados e atualiza as tabelas externas.

Configurações

Para obter mais informações sobre as configurações de tarefas, consulte Configurações de aterrissagem no lake de streaming.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!