Integrando dados
A primeira etapa da criação de um pipeline de dados em um projeto do Qlik Open Lakehouse é a integração dos dados. Esse processo envolve a transferência de dados da fonte e o armazenamento de conjuntos de dados em tabelas do Iceberg otimizadas.
A integração é criada em uma única operação, mas realizada em duas etapas. O tipo de fonte de dados, seja CDC ou de fluxo, determina as tarefas em seu projeto:
Fontes CDC
-
Aterrisando os dados
Isso envolve a transferência de dados em mini-lotes contínuos da fonte de dados local para uma área de aterrisagem, usando uma tarefa de dados de aterrisagem.
Aterrissagem de dados de fontes de dados
Você também pode armazenar dados em um lakehouse, onde eles são armazenados em um armazenamento de arquivos S3.
-
Armazenando conjuntos de dados
Isso envolve a leitura da carga inicial de dados de aterrissagem ou cargas incrementais e a aplicação dos dados em formato otimizado para leitura usando uma tarefa de armazenamento de dados.
Fontes de streaming
-
Aterrisando os dados
Isso envolve o streaming contínuo de dados da origem para uma área de aterrisagem, usando uma tarefa de streaming de dados de aterrisagem.
-
Armazenando conjuntos de dados
Isso envolve a leitura da carga inicial de dados de aterrissagem e a aplicação desses dados em um formato otimizado para leitura, utilizando uma tarefa de transformação de armazenamento.
Usando dados integrados
Depois de integrar os dados, você poderá usar os conjuntos de dados armazenados de várias maneiras, incluindo:
-
Você pode usar os conjuntos de dados em um aplicativo de análise.
-
Você pode espelhar dados para um ou mais armazéns de dados na nuvem, incluindo o Amazon Redshift e o Snowflake, adicionando uma tarefa de Espelhamento de dados diretamente à tarefa de armazenamento de dados para fontes CDC, ou à tarefa de transformação de streaming para fontes de streaming.
Para obter mais informações, consulte Espelhamento de dados em um armazém de dados na nuvem.
-
Você pode transformar dados em seu armazém de dados na nuvem criando um pipeline entre projetos que consome dados do seu projeto de integração.