Armazenando conjuntos de dados de streaming

As seguintes configurações de tarefa de transformação de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.

Você pode armazenar e transformar dados de streaming usando a tarefa de transformação de dados de streaming. Dados de streaming geralmente contêm estruturas aninhadas e arrays que exigem nivelamento, e recursos de transformação são necessários durante a fase de armazenamento. Esses recursos estão disponíveis para a tarefa de transformação de streaming, permitindo que você aplique transformações imediatamente após a aterrissagem dos seus dados de streaming.

Gerenciando a granularidade do conjunto de dados

Você pode nivelar estruturas aninhadas e arrays para aumentar a granularidade. A granularidade é exibida na visualização do conjunto de dados. Clique em editar para editar a granularidade:

A seleção de um campo de um array fará com que a tabela de destino inclua uma linha por elemento. Isso aumentará o número de linhas no destino.
Você deve selecionar campos do mesmo caminho de array. A seleção de campos de caminhos diferentes gerará um erro de validação.
Os tipos de dados exibidos refletem a granularidade selecionada. Por exemplo, um ARRAY<INT> se torna INT quando é nivelado. Para obter mais informações, consulte Mapeamentos de tipo de dados.

Excluindo uma tarefa

Você pode excluir a tarefa de dados se ela não estiver em execução e não houver dependências para tarefas downstream no mesmo projeto.

Na exibição Projeto de pipeline do projeto, clique em em uma tarefa e selecione Excluir.

Os artefatos (tabelas e exibições) criados pela tarefa também serão excluídos, a menos que você selecione a opção para mantê-los.

Lembre-se de que os artefatos que você mantiver não serão mais atualizados pela tarefa.

Exibindo informações da tarefa

Clique em na barra de menu para visualizar informações da tarefa, como:

Proprietário
Espaço
Plataforma de dados
ID do projeto
ID de tempo de execução da tarefa de dados

Configurações da transformação de streaming

Você pode definir propriedades para a tarefa de transformação de streaming quando a plataforma de dados é o Qlik Open Lakehouse.

Clique em Configurações.

Configurações gerais

Esquema de tarefa

Você pode alterar o nome do esquema da tarefa de transformação de streaming. O nome padrão é o nome da tarefa de armazenamento.
Esquema interno

Você pode alterar o nome do esquema de ativo de dados de armazenamento interno. O nome padrão é o nome da tarefa de armazenamento com _internal anexado.
Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.

Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.
Pasta para uso

Você pode alterar a pasta de armazenamento da tarefa de transformação de streaming.
Carregar configurações para novos conjuntos de dados
- Anexar apenas
  
  Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.
- Aplicar alterações
  
  Atualiza os registros existentes e insere novos registros com base em campos chave.
  
  Se você selecionar mesclar alterações, você também pode selecionar o seguinte:
  - Excluir registros de forma lógica, fornecendo uma expressão de exclusão
    
    Defina uma expressão de exclusão para marcar registros para exclusão.
  - Manter registros históricos (Tipo 2)
    
    Manter versões anteriores de registros alterados.
Desaninhar colunas
- Preservar colunas aninhadas
  
  Selecione para preservar dados aninhados.
- Desaninhar em colunas separadas
  
  O comportamento padrão é desaninhar dados em colunas separadas.
Partição de tabelas de destino

Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.
- Nenhuma partição
  
  Novas tabelas são criadas sem partições.
- Particionar por data do evento
  
  Novas tabelas são particionadas pela data em que os eventos são ingeridos.
Gerenciamento de alteração de dados

Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.
- Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão.
- Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.
Gerenciamento de retenção
- Sem limpeza de partições
- Limpeza de partição de snapshot atual

Definições da tabela

hdr__from_timestamp

Quando esta opção está ativada, a coluna de cabeçalho hdr__from_timestamp aparece nas visualizações padrão. Além disso, quando Particionar por data de ingestão de evento é selecionado no assistente de integração, hdr__from_timestamp é usada como a coluna de partição padrão.

Nota informativaVisualizações de histórico sempre incluem todas as colunas de cabeçalho da visualização padrão, independentemente dessa configuração.

Configurações de tempo de execução

Cluster do Lakehouse

Você pode alterar o cluster do lakehouse, mas ele deve suportar cargas de trabalho de streaming ou cargas de trabalho mistas.

Configurações de evolução do esquema

Adicionar colunas no nível raiz

Essa configuração se aplica quando novas colunas são adicionadas à tarefa de aterrisagem de streaming no nível raiz.
- Aplicar ao destino
  
  Adiciona automaticamente novas colunas de nível raiz da tarefa de aterrissagem de streaming para a tarefa de transformação de streaming. Esta é a configuração padrão.
- Ignorar
  
  Não adiciona novas colunas de nível raiz.
- Interromper tarefa
  
  Para a tarefa de transformação se uma nova coluna de nível raiz for detectada na tarefa de aterrissagem de streaming.
Adicionar colunas às estruturas

Essa configuração se aplica quando novos campos são adicionados dentro de uma estrutura aninhada existente na tarefa de aterrisagem de streaming.
- Aplicar ao destino
  Adiciona automaticamente novos campos a estruturas existentes na tarefa de transformação de streaming se forem adicionados à estrutura de aterrissagem.
- Ignorar
  
  Não adiciona novos campos a estruturas existentes.
- Interromper tarefa
  
  Interrompe a tarefa de transformação se um novo campo for adicionado a uma estrutura na tarefa de aterrisagem de streaming.
Alterar tipo de dados do campo
- Ignorar
  Não altera o tipo de dados.
- Interromper tarefa
  
  Interrompe a tarefa de transformação se for detectada uma alteração no tipo de dados na tarefa de aterrisagem de streaming.

Configurações do conjunto de dados

As seguintes configurações estão disponíveis para todos os conjuntos de dados na exibição Design > Conjuntos de dados.

Clique em mais ao lado do conjunto de dados e selecione Configurações.

Gerenciamento de carga de dados

Seleciona como os dados serão carregados na tabela de destino.
- Anexar apenas
  
  Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.
- Aplicar alterações
  
  Atualiza os registros existentes e insere novos registros com base em campos chave.
Gerenciamento de alteração de dados

Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.
- Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão. Deve ser uma expressão que valida como Verdadeiro se a alteração for uma exclusão lógica.
  
  Exemplo: operation = 'D'
- Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.
Colunas de partição

Opcionalmente, você pode selecionar colunas de partição para otimizar o desempenho.

Clique em Adicionar coluna para adicionar uma coluna de partição, em seguida, selecione uma Transformação e defina um Parâmetro se necessário.
Gerenciamento de retenção

A limpeza de partição remove partições que são mais antigas do período de retenção. Isso não exclui fisicamente os dados e não afeta snapshots mais antigos imediatamente. Dados mais antigos podem estar disponíveis em snapshots mais antigos até que expirem.

Nota informativaAparece somente se a partição tiver pelo menos uma coluna de data ou data/hora.
- Sem limpeza de partições
- Limpeza de partição de snapshot atual
Classificar colunas

Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.

Opcionalmente, você pode especificar as colunas pelas quais os dados serão classificados em cada arquivo da sua tabela do Iceberg. Durante a ingestão de dados, o Iceberg usa essas colunas para ordenar os registros. Definir chaves de classificação em colunas frequentemente usadas em consultas melhora a localidade dos dados, resultando em um desempenho de leitura mais rápido e uma compressão mais eficiente. Chaves de classificação configuradas corretamente garantem que seus dados estejam organizados de forma otimizada para o desempenho das consultas.

Clique em Adicionar coluna para adicionar uma coluna de classificação e, em seguida, defina a ordem de classificação.
Duração de expiração do snapshot

Esta configuração controla por quanto tempo os snapshots são retidos, o que afeta significativamente o tamanho da tabela e os custos de armazenamento. Para tabelas atualizadas com frequência, recomenda-se uma duração mais curta para ajudar a reduzir os custos de armazenamento.

Nota informativaDigite 0 para desativar a expiração do snapshot.
Cabeçalhos de exibição padrão
- Herdar das configurações de tarefas de dados
  
  Esse é o padrão. Desativar se você quiser definir colunas de cabeçalho específicas apenas para este conjunto de dados.
- hdr__from_timestamp
  
  Quando esta opção está ativada, a coluna de cabeçalho hdr__from_timestamp aparece nas visualizações padrão. Além disso, quando Particionar por data de ingestão de evento é selecionado no assistente de integração, hdr__from_timestamp é usada como a coluna de partição padrão.
  
  Nota informativaVisualizações de histórico sempre incluem todas as colunas de cabeçalho da visualização padrão, independentemente dessa configuração.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui