Ir para conteúdo principal Pular para conteúdo complementar

Configurações de aterrissagem no lake de streaming

As seguintes configurações de tarefa de aterrisagem no lake de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.

Geral

Pasta para uso
Selecione a pasta a ser usada ao aterrissar dados na área de preparação.

  • Pasta padrão

    Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.

  • Pasta raiz

    Armazene dados na pasta raiz do armazenamento.

  • Pasta

    Especifique um nome de pasta a ser usado.

Retenção de pastas
Selecione por quanto tempo reter os dados:

  • Dados e metadados não são excluídos: nem os dados nem os metadados são excluídos.

  • Excluir dados e metadados após o período de retenção: dados e metadados são excluídos após o término do período de retenção,

  • Excluir metadados após o período de retenção. Os dados são excluídos por um sistema externo.Os dados são excluídos permanentemente após o término deste período. Os metadados são limpos, mas os dados subjacentes, por exemplo, o objeto S3, não são excluídos pelo Qlik.

Ler dados de
Selecione quando ingerir os dados de:

  • Comece agora

    Ingerir apenas os eventos que chegam quando a pipeline começa.

  • Começar pelo evento mais antigo (padrão)

    Ingerir todos os dados históricos.

Tipo de conteúdo
Selecione o formato do arquivo na lista, por exemplo, JSON ou CSV. Isso pode ser alterado depois que a tarefa for executada, recriando a tarefa. Consulte Tipos de conteúdo para obter detalhes sobre cada formato de arquivo.

Evolução do esquema

Novo tópico/fluxo: selecione como lidar com novos fluxos/tópicos.

  • Adicionar ao destino: se você carregar todas as tabelas em uma única tabela de destino, novos dados serão adicionados a esta tabela. Se você carregar cada tópico em um conjunto de dados diferente, um novo tópico será adicionado a um novo conjunto de dados.

  • Ignorar: novos dados não são adicionados ao destino.

Tempo de execução

Número de leitores

  • Apache Kafka: selecione o número de leitores a serem usados. O valor deve estar entre 1 e 1.000.

  • Amazon Kinesis: selecione o número de fragmentos de fluxo.

  • Amazon S3: esta configuração não se aplica a fontes de fluxo do S3.

Cluster do Lakehouse
Selecione o cluster de streaming. A tarefa de aterrissagem de streaming e as tarefas de transformação de streaming não precisam estar no mesmo cluster, mas precisam estar na mesma integração de rede.

Tipos de conteúdo

As seguintes configurações se aplicam a cada formato de arquivo.

  • JSON

    • Esse é o formato de arquivo padrão se não for definido de outra forma.

  • CSV e TSV

    • A primeira linha contém cabeçalhos: selecionado por padrão para especificar que a primeira linha contém o registro de cabeçalho.

    • Linha de cabeçalho(opcional): se a primeira linha não for o cabeçalho, defina os nomes dos cabeçalhos.

    • Delimitador: selecione o delimitador padrão se este não for o padrão (vírgula para CSV, tabulação para TSV). 

    • Caractere de escape de aspas: selecione o caractere de escape de aspas padrão se este não for uma aspa dupla, conforme definido por padrão. 

    • Valor nulo (opcional): insira o valor nulo de substituição.

    • Permitir cabeçalhos duplicados: se duas colunas tiverem o mesmo nome, a segunda será adicionada com um nome diferente.

  • Parquet, Avro e ORC

    • Nenhuma definição adicional requer configuração.

  • Regex

    • Padrão: insira o padrão de expressão regular.

    • Múltiplas linhas: selecionado por padrão

  • Dividir linhas:

    • Regex: insira a expressão regular para a divisão.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!