Aterrisando dados para o Qlik Open Lakehouse

Os dados são aterrisados no Amazon S3, prontos para que a tarefa de armazenamento de dados os converta no formato de tabela aberta do Iceberg. Você pode obter dados de qualquer fonte aceita pela Qlik.

A aterrisagem de dados em um Qlik Open Lakehouse requer um compartimento pré-configurado do Amazon S3. O Qlik Open Lakehouse é otimizado especificamente para fontes de dados de alto volume e fluxo e é compatível com todas as fontes de dados compatíveis com o Qlik. Os dados são aterrisados em formato CSV no S3. A tarefa Dados de armazenamento converte os dados para o formato do Iceberg e os copia para arquivos Parquet. A especificação do Iceberg permite que os dados sejam consultados a partir de qualquer mecanismo que ofereça suporte nativo ao Trino SQL, por exemplo, Amazon Athena, Ahana ou Starburst Enterprise. Opcionalmente, as tabelas podem ser espelhadas no Snowflake, onde podem ser consultadas sem duplicar os dados.

A aterrisagem de dados em um Qlik Open Lakehouse está disponível em projetos com uma conexão de destino do AWS Glue Data Catalog.

Preparações

Para espelhar dados no Snowflake, você deve primeiro criar um projeto do Qlik Open Lakehouse para ingerir seus dados e armazená-los usando o formato de tabela aberta do Iceberg. Você pode adicionar uma tarefa de dados de espelhamento após a tarefa Dados de armazenamento. Para realizar transformações de dados, crie um projeto do Snowflake que use o projeto do Qlik Open Lakehouse como fonte de dados. Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.
Embora você possa configurar suas configurações de conexão de origem e destino no assistente de configuração de tarefas, para simplificar o procedimento de configuração, é recomendável fazer isso antes de criar a tarefa.

Criando uma tarefa de aterrisagem do lake

Para criar uma tarefa de aterrisagem no lake, faça o seguinte:

Crie um projeto e selecione Pipeline de dados em Caso de uso.
Selecione Qlik Open Lakehouse em Plataforma de dados e estabeleça uma conexão com o catálogo de dados.
Configure uma área de armazenamento em Aterrisando a conexão de destino.
Clique em Criar para criar o projeto.

Quando você integra dados ou cria uma tarefa de aterrisagem no projeto, é criada uma tarefa de Aterrisagem no lake em vez de uma tarefa de Aterrisagem. As tarefas de Aterrisagem no lake operam e se comportam principalmente como tarefas de Aterrisagem, exceto pelo fato de que elas transferem dados para o armazenamento em nuvem. Para obter mais informações, consulte Aterrissagem de dados de fontes de dados.

Todos os arquivos são aterrisados no formato CSV. Após a atualização dos dados de aterrissagem, a tarefa de armazenamento que consome a tarefa de aterrissagem atualiza as tabelas externas.

Configurações

Para obter mais informações sobre as configurações de tarefas, consulte Configurações de aterrisagem em um data lake.

Limitações

Os dados aterrisados não são particionados no compartimento porque a tarefa de armazenamento é executada a cada minuto. Portanto, a frequência da partição de dados não pode ser atualizada nas configurações da tarefa.
Embora a aterrisagem de dados de fontes de SaaS seja programada, a tarefa de armazenamento executa minilotes a cada minuto. Isso requer um cluster ativo de lakehouse a um custo mínimo.
Se um valor de chave primária for alterado, os registros com a chave original serão marcados como Excluído e a linha que contém o valor de chave alterado será marcada como Inserir.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui