Ir para conteúdo principal Pular para conteúdo complementar

Armazenando conjuntos de dados de streaming

As seguintes configurações de tarefa de transformação de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.

Você pode armazenar e transformar dados de streaming usando a tarefa de transformação de dados de streaming. Dados de streaming geralmente contêm estruturas aninhadas e arrays que exigem nivelamento, e recursos de transformação são necessários durante a fase de armazenamento. Esses recursos estão disponíveis para a tarefa de transformação de streaming, permitindo que você aplique transformações imediatamente após a aterrissagem dos seus dados de streaming.

Gerenciando a granularidade do conjunto de dados

Você pode nivelar estruturas aninhadas e arrays para aumentar a granularidade. A granularidade é exibida na visualização do conjunto de dados. Clique em editar para editar a granularidade:

  • A seleção de um campo de um array fará com que a tabela de destino inclua uma linha por elemento. Isso aumentará o número de linhas no destino.

  • Você deve selecionar campos do mesmo caminho de array. A seleção de campos de caminhos diferentes gerará um erro de validação.

  • Os tipos de dados exibidos refletem a granularidade selecionada. Por exemplo, um ARRAY<INT> se torna INT quando é nivelado. Para obter mais informações, consulte Mapeamentos de tipo de dados.

Exibindo informações da tarefa

Clique em Informações na barra de menu para visualizar informações da tarefa, como:

  • Proprietário

  • Espaço

  • Plataforma de dados

  • ID do projeto

  • ID de tempo de execução da tarefa de dados

Configurações da transformação de streaming

Configurações de armazenamento

Você pode definir propriedades para a tarefa de transformação de streaming quando a plataforma de dados é o Qlik Open Lakehouse.

  • Clique em Configurações.

Configurações gerais

  • Esquema de tarefa

    Você pode alterar o nome do esquema da tarefa de transformação de streaming. O nome padrão é o nome da tarefa de armazenamento.

  • Esquema interno

    Você pode alterar o nome do esquema de ativo de dados de armazenamento interno. O nome padrão é o nome da tarefa de armazenamento com _internal anexado.

  • Prefixo para todas as tabelas e visualizações

    Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.

    Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.
  • Pasta para uso

    Você pode alterar a pasta de armazenamento da tarefa de transformação de streaming.

  • Carregar configurações para novos conjuntos de dados

    • Anexar apenas

      Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.

    • Aplicar alterações

      Atualiza os registros existentes e insere novos registros com base em campos chave.

      Se você selecionar mesclar alterações, você também pode selecionar o seguinte:

      • Excluir registros de forma lógica, fornecendo uma expressão de exclusão

        Defina uma expressão de exclusão para marcar registros para exclusão.

      • Manter registros históricos (Tipo 2)

        Manter versões anteriores de registros alterados.

  • Desaninhar colunas

    • Preservar colunas aninhadas

      Selecione para preservar dados aninhados.

    • Desaninhar em colunas separadas

      O comportamento padrão é desaninhar dados em colunas separadas.

  • Partição de tabelas de destino

    Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.
    • Nenhuma partição

      Novas tabelas são criadas sem partições.

    • Particionar por data do evento

      Novas tabelas são particionadas pela data em que os eventos são ingeridos.

  • Gerenciamento de alteração de dados

    Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.
    • Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão.

    • Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.

  • Gerenciamento de retenção
    • Sem limpeza de partições

    • Limpeza de partição de snapshot atual

Configurações de tempo de execução

  • Cluster do Lakehouse

    Você pode alterar o cluster do lakehouse, mas ele deve suportar cargas de trabalho de streaming ou cargas de trabalho mistas.

Configurações de evolução do esquema

  • Adicionar colunas no nível raiz

    Essa configuração se aplica quando novas colunas são adicionadas à tarefa de aterrisagem de streaming no nível raiz.

    • Aplicar ao destino

      Adiciona automaticamente novas colunas de nível raiz da tarefa de aterrissagem de streaming para a tarefa de transformação de streaming. Esta é a configuração padrão.

    • Ignorar

      Não adiciona novas colunas de nível raiz.

    • Interromper tarefa

      Para a tarefa de transformação se uma nova coluna de nível raiz for detectada na tarefa de aterrissagem de streaming.

  • Adicionar colunas às estruturas

    Essa configuração se aplica quando novos campos são adicionados dentro de uma estrutura aninhada existente na tarefa de aterrisagem de streaming.

    • Aplicar ao destino

      Adiciona automaticamente novos campos a estruturas existentes na tarefa de transformação de streaming se forem adicionados à estrutura de aterrissagem.

    • Ignorar

      Não adiciona novos campos a estruturas existentes.

    • Interromper tarefa

      Interrompe a tarefa de transformação se um novo campo for adicionado a uma estrutura na tarefa de aterrisagem de streaming.

  • Alterar tipo de dados do campo

    • Ignorar

      Não altera o tipo de dados.

    • Interromper tarefa

      Interrompe a tarefa de transformação se for detectada uma alteração no tipo de dados na tarefa de aterrisagem de streaming.

Configurações do conjunto de dados

As seguintes configurações estão disponíveis para todos os conjuntos de dados na exibição Design > Conjuntos de dados.

Clique em mais ao lado do conjunto de dados e selecione Configurações.

  • Gerenciamento de carga de dados

    Seleciona como os dados serão carregados na tabela de destino.

    • Anexar apenas

      Adiciona novos registros sem modificar os dados existentes. As restrições chave não são aplicadas se chegarem registros duplicados.

    • Aplicar alterações

      Atualiza os registros existentes e insere novos registros com base em campos chave.

  • Gerenciamento de alteração de dados

    Nota informativaEsta opção está disponível apenas quando Aplicar alterações está selecionado em Configurações de carregamento.
    • Incluir exclusões flexíveis: Insira uma expressão para definir quais registros marcar para exclusão. Deve ser uma expressão que valida como Verdadeiro se a alteração for uma exclusão lógica.

      Exemplo: operation = 'D'

    • Criar um armazenamento de dados históricos (Tipo 2): Isso manterá as versões anteriores dos registros alterados.

  • Colunas de partição

    Opcionalmente, você pode selecionar colunas de partição para otimizar o desempenho.

    Clique em Adicionar coluna para adicionar uma coluna de partição, em seguida, selecione uma Transformação e defina um Parâmetro se necessário.

  • Gerenciamento de retenção   

    A limpeza de partição remove partições que são mais antigas do período de retenção. Isso não exclui fisicamente os dados e não afeta snapshots mais antigos imediatamente. Dados mais antigos podem estar disponíveis em snapshots mais antigos até que expirem.

    Nota informativaAparece somente se a partição tiver pelo menos uma coluna de data ou data/hora.
    • Sem limpeza de partições

    • Limpeza de partição de snapshot atual

  • Classificar colunas

    Nota informativaEsta opção está disponível apenas quando Somente anexar está selecionado em Configurações de carregamento.

    Opcionalmente, você pode especificar as colunas pelas quais os dados serão classificados em cada arquivo da sua tabela do Iceberg. Durante a ingestão de dados, o Iceberg usa essas colunas para ordenar os registros. Definir chaves de classificação em colunas frequentemente usadas em consultas melhora a localidade dos dados, resultando em um desempenho de leitura mais rápido e uma compressão mais eficiente. Chaves de classificação configuradas corretamente garantem que seus dados estejam organizados de forma otimizada para o desempenho das consultas.

    Clique em Adicionar coluna para adicionar uma coluna de classificação e, em seguida, defina a ordem de classificação.

  • Duração de expiração do snapshot

    Esta configuração controla por quanto tempo os snapshots são retidos, o que afeta significativamente o tamanho da tabela e os custos de armazenamento. Para tabelas atualizadas com frequência, recomenda-se uma duração mais curta para ajudar a reduzir os custos de armazenamento.

    Nota informativaDigite 0 para desativar a expiração do snapshot.

 

 

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!