Configurações de aterrissagem no lake de streaming
As seguintes configurações de tarefa de aterrisagem no lake de streaming aplicam-se a projetos do Qlik Open Lakehouse que utilizam uma fonte de streaming.
Geral
Pasta para uso
Selecione a pasta a ser usada ao aterrissar dados na área de preparação.
-
Pasta padrão
Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
-
Pasta raiz
Armazene dados na pasta raiz do armazenamento.
-
Pasta
Especifique um nome de pasta a ser usado.
Retenção de pastas
Selecione por quanto tempo reter os dados:
-
Dados e metadados não são excluídos: nem os dados nem os metadados são excluídos.
-
Excluir dados e metadados após o período de retenção: dados e metadados são excluídos após o término do período de retenção,
-
Excluir metadados após o período de retenção. Os dados são excluídos por um sistema externo.Os dados são excluídos permanentemente após o término deste período. Os metadados são limpos, mas os dados subjacentes, por exemplo, o objeto S3, não são excluídos pelo Qlik.
Ler dados de
Selecione quando ingerir os dados de:
-
Comece agora
Ingerir apenas os eventos que chegam quando a pipeline começa.
-
Começar pelo evento mais antigo (padrão)
Ingerir todos os dados históricos.
Tipo de conteúdo
Selecione o formato do arquivo na lista, por exemplo, JSON ou CSV. Isso pode ser alterado depois que a tarefa for executada, recriando a tarefa. Consulte Tipos de conteúdo para obter detalhes sobre cada formato de arquivo.
Evolução do esquema
Novo tópico/fluxo: selecione como lidar com novos fluxos/tópicos.
-
Adicionar ao destino: se você carregar todas as tabelas em uma única tabela de destino, novos dados serão adicionados a esta tabela. Se você carregar cada tópico em um conjunto de dados diferente, um novo tópico será adicionado a um novo conjunto de dados.
-
Ignorar: novos dados não são adicionados ao destino.
Tempo de execução
Número de leitores
-
Apache Kafka: selecione o número de leitores a serem usados. O valor deve estar entre 1 e 1.000.
-
Amazon Kinesis: selecione o número de fragmentos de fluxo.
-
Amazon S3: esta configuração não se aplica a fontes de fluxo do S3.
Cluster do Lakehouse
Selecione o cluster de streaming. A tarefa de aterrissagem de streaming e as tarefas de transformação de streaming não precisam estar no mesmo cluster, mas precisam estar na mesma integração de rede.
Tipos de conteúdo
As seguintes configurações se aplicam a cada formato de arquivo.
-
JSON
-
Esse é o formato de arquivo padrão se não for definido de outra forma.
-
-
CSV e TSV
-
A primeira linha contém cabeçalhos: selecionado por padrão para especificar que a primeira linha contém o registro de cabeçalho.
-
Linha de cabeçalho(opcional): se a primeira linha não for o cabeçalho, defina os nomes dos cabeçalhos.
-
Delimitador: selecione o delimitador padrão se este não for o padrão (vírgula para CSV, tabulação para TSV).
-
Caractere de escape de aspas: selecione o caractere de escape de aspas padrão se este não for uma aspa dupla, conforme definido por padrão.
-
Valor nulo (opcional): insira o valor nulo de substituição.
-
Permitir cabeçalhos duplicados: se duas colunas tiverem o mesmo nome, a segunda será adicionada com um nome diferente.
-
-
Parquet, Avro e ORC
-
Nenhuma definição adicional requer configuração.
-
-
Regex
-
Padrão: insira o padrão de expressão regular.
-
Múltiplas linhas: selecionado por padrão
-
-
Dividir linhas:
-
Regex: insira a expressão regular para a divisão.
-