Configurações de aterrissagem no lake de streaming

As seguintes configurações de tarefa de aterrisagem no lake de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.

Geral

Pasta para uso
Selecione a pasta a ser usada ao aterrissar dados na área de preparação.

Pasta padrão

Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
Pasta raiz

Armazene dados na pasta raiz do armazenamento.
Pasta

Especifique um nome de pasta a ser usado.

Retenção de pastas
Selecione por quanto tempo reter os dados:

Dados e metadados não são excluídos: nem os dados nem os metadados são excluídos.
Excluir dados e metadados após o período de retenção: dados e metadados são excluídos após o término do período de retenção,
Excluir metadados após o período de retenção. Os dados são excluídos por um sistema externo.Os dados são excluídos permanentemente após o término deste período. Os metadados são limpos, mas os dados subjacentes, por exemplo, o objeto S3, não são excluídos pelo Qlik.

Ler dados de
Selecione quando ingerir os dados de:

Comece agora

Ingerir apenas os eventos que chegam quando a pipeline começa.
Começar pelo evento mais antigo (padrão)

Ingerir todos os dados históricos.

Tipo de conteúdo
Selecione o formato do arquivo na lista, por exemplo, JSON ou CSV. Isso pode ser alterado depois que a tarefa for executada, recriando a tarefa. Consulte Tipos de conteúdo para obter detalhes sobre cada formato de arquivo.

Evolução do esquema

Novo tópico/fluxo: selecione como lidar com novos fluxos/tópicos.

Adicionar ao destino: se você carregar todas as tabelas em uma única tabela de destino, novos dados serão adicionados a esta tabela. Se você carregar cada tópico em um conjunto de dados diferente, um novo tópico será adicionado a um novo conjunto de dados.
Ignorar: novos dados não são adicionados ao destino.

Tempo de execução

Número de leitores

Apache Kafka: selecione o número de leitores a serem usados. O valor deve estar entre 1 e 1.000.
Amazon Kinesis: selecione o número de fragmentos de fluxo.
Amazon S3: esta configuração não se aplica a fontes de fluxo do S3.

Cluster do Lakehouse
Selecione o cluster de streaming. A tarefa de aterrissagem de streaming e as tarefas de transformação de streaming não precisam estar no mesmo cluster, mas precisam estar na mesma integração de rede.

Tipos de conteúdo

As seguintes configurações se aplicam a cada formato de arquivo.

JSON
- Esse é o formato de arquivo padrão se não for definido de outra forma.
CSV e TSV
- A primeira linha contém cabeçalhos: selecionado por padrão para especificar que a primeira linha contém o registro de cabeçalho.
- Linha de cabeçalho(opcional): se a primeira linha não for o cabeçalho, defina os nomes dos cabeçalhos.
- Delimitador: selecione o delimitador padrão se este não for o padrão (vírgula para CSV, tabulação para TSV).
- Caractere de escape de aspas: selecione o caractere de escape de aspas padrão se este não for uma aspa dupla, conforme definido por padrão.
- Valor nulo (opcional): insira o valor nulo de substituição.
- Permitir cabeçalhos duplicados: se duas colunas tiverem o mesmo nome, a segunda será adicionada com um nome diferente.
Parquet, Avro e ORC
- Nenhuma definição adicional requer configuração.
Regex
- Padrão: insira o padrão de expressão regular.
- Múltiplas linhas: selecionado por padrão
Dividir linhas:
- Regex: insira a expressão regular para a divisão.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui