Armazenando conjuntos de dados de streaming
As seguintes configurações de tarefa de transformação de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.
Você pode armazenar e transformar dados de streaming usando a tarefa de transformação de dados de streaming. Dados de streaming geralmente contêm estruturas aninhadas e arrays que exigem nivelamento, e recursos de transformação são necessários durante a fase de armazenamento. Esses recursos estão disponíveis para a tarefa de transformação de streaming, permitindo que você aplique transformações imediatamente após a aterrissagem dos seus dados de streaming.
Gerenciando a granularidade do conjunto de dados
Você pode nivelar estruturas aninhadas e arrays para aumentar a granularidade. A granularidade é exibida na visualização do conjunto de dados. Clique em para editar a granularidade:
-
A seleção de um campo de um array fará com que a tabela de destino inclua uma linha por elemento. Isso aumentará o número de linhas no destino.
-
Você deve selecionar campos do mesmo caminho de array. A seleção de campos de caminhos diferentes gerará um erro de validação.
-
Os tipos de dados exibidos refletem a granularidade selecionada. Por exemplo, um ARRAY<INT> se torna INT quando é nivelado. Para obter mais informações, consulte Mapeamentos de tipo de dados.
Exibindo informações da tarefa
Clique em na barra de menu para visualizar informações da tarefa, como:
-
Proprietário
-
Espaço
-
Plataforma de dados
-
ID do projeto
-
ID de tempo de execução da tarefa de dados
Configurações da transformação de streaming
Configurações de armazenamento
Você pode definir propriedades para a tarefa de transformação de streaming quando a plataforma de dados é o Qlik Open Lakehouse.
-
Clique em Configurações.
Configurações gerais
-
Esquema de tarefa
Você pode alterar o nome do esquema da tarefa de transformação de streaming. O nome padrão é o nome da tarefa de armazenamento.
-
Esquema interno
Você pode alterar o nome do esquema de ativo de dados de armazenamento interno. O nome padrão é o nome da tarefa de armazenamento com _internal anexado.
- Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.
Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados. -
Pasta para uso
Você pode alterar a pasta de armazenamento da tarefa de transformação de streaming.
-
Carregar configurações para novos conjuntos de dados
-
Anexar apenas
Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.
-
Aplicar alterações
Atualiza os registros existentes e insere novos registros com base em campos chave.
Se você selecionar mesclar alterações, você também pode selecionar o seguinte:
-
Excluir registros de forma lógica, fornecendo uma expressão de exclusão
Defina uma expressão de exclusão para marcar registros para exclusão.
-
Manter registros históricos (Tipo 2)
Manter versões anteriores de registros alterados.
-
-
-
Desaninhar colunas
-
Preservar colunas aninhadas
Selecione para preservar dados aninhados.
-
Desaninhar em colunas separadas
O comportamento padrão é desaninhar dados em colunas separadas.
-
-
Partição de tabelas de destino
Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.-
Nenhuma partição
Novas tabelas são criadas sem partições.
-
Particionar por data do evento
Novas tabelas são particionadas pela data em que os eventos são ingeridos.
-
-
Gerenciamento de alteração de dados
Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.-
Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão.
-
Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.
-
- Gerenciamento de retenção
-
Sem limpeza de partições
-
Limpeza de partição de snapshot atual
-
Configurações de tempo de execução
-
Cluster do Lakehouse
Você pode alterar o cluster do lakehouse, mas ele deve suportar cargas de trabalho de streaming ou cargas de trabalho mistas.
Configurações de evolução do esquema
-
Adicionar colunas no nível raiz
Essa configuração se aplica quando novas colunas são adicionadas à tarefa de aterrisagem de streaming no nível raiz.
-
Aplicar ao destino
Adiciona automaticamente novas colunas de nível raiz da tarefa de aterrissagem de streaming para a tarefa de transformação de streaming. Esta é a configuração padrão.
-
Ignorar
Não adiciona novas colunas de nível raiz.
-
Interromper tarefa
Para a tarefa de transformação se uma nova coluna de nível raiz for detectada na tarefa de aterrissagem de streaming.
-
-
Adicionar colunas às estruturas
Essa configuração se aplica quando novos campos são adicionados dentro de uma estrutura aninhada existente na tarefa de aterrisagem de streaming.
- Aplicar ao destino
Adiciona automaticamente novos campos a estruturas existentes na tarefa de transformação de streaming se forem adicionados à estrutura de aterrissagem.
-
Ignorar
Não adiciona novos campos a estruturas existentes.
-
Interromper tarefa
Interrompe a tarefa de transformação se um novo campo for adicionado a uma estrutura na tarefa de aterrisagem de streaming.
- Aplicar ao destino
-
Alterar tipo de dados do campo
- Ignorar
Não altera o tipo de dados.
-
Interromper tarefa
Interrompe a tarefa de transformação se for detectada uma alteração no tipo de dados na tarefa de aterrisagem de streaming.
- Ignorar
Configurações do conjunto de dados
As seguintes configurações estão disponíveis para todos os conjuntos de dados na exibição Design > Conjuntos de dados.
Clique em ao lado do conjunto de dados e selecione Configurações.
-
Gerenciamento de carga de dados
Seleciona como os dados serão carregados na tabela de destino.
-
Anexar apenas
Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.
-
Aplicar alterações
Atualiza os registros existentes e insere novos registros com base em campos chave.
-
-
Gerenciamento de alteração de dados
Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.-
Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão. Deve ser uma expressão que valida como Verdadeiro se a alteração for uma exclusão lógica.
Exemplo: operation = 'D'
-
Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.
-
-
Colunas de partição
Opcionalmente, você pode selecionar colunas de partição para otimizar o desempenho.
Clique em Adicionar coluna para adicionar uma coluna de partição, em seguida, selecione uma Transformação e defina um Parâmetro se necessário.
-
Gerenciamento de retenção
A limpeza de partição remove partições que são mais antigas do período de retenção. Isso não exclui fisicamente os dados e não afeta snapshots mais antigos imediatamente. Dados mais antigos podem estar disponíveis em snapshots mais antigos até que expirem.
Nota informativaAparece somente se a partição tiver pelo menos uma coluna de data ou data/hora.-
Sem limpeza de partições
-
Limpeza de partição de snapshot atual
-
-
Classificar colunas
Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.Opcionalmente, você pode especificar as colunas pelas quais os dados serão classificados em cada arquivo da sua tabela do Iceberg. Durante a ingestão de dados, o Iceberg usa essas colunas para ordenar os registros. Definir chaves de classificação em colunas frequentemente usadas em consultas melhora a localidade dos dados, resultando em um desempenho de leitura mais rápido e uma compressão mais eficiente. Chaves de classificação configuradas corretamente garantem que seus dados estejam organizados de forma otimizada para o desempenho das consultas.
Clique em Adicionar coluna para adicionar uma coluna de classificação e, em seguida, defina a ordem de classificação.
-
Duração de expiração do snapshot
Esta configuração controla por quanto tempo os snapshots são retidos, o que afeta significativamente o tamanho da tabela e os custos de armazenamento. Para tabelas atualizadas com frequência, recomenda-se uma duração mais curta para ajudar a reduzir os custos de armazenamento.
Nota informativaDigite 0 para desativar a expiração do snapshot.