Configurações de aterrisagem em um data lake

As configurações da tarefa de aterrisagem a seguir se aplicam aos projetos do Qlik Open Lakehouse usando um banco de dados ou uma fonte SaaS.

Você pode definir configurações para a tarefa de dados de aterrisagem em um data lake.

Abra a tarefa de aterrisagem e clique em Configurações na barra de ferramentas.

O diálogo Configurações: <Nome-da-tarefa> é aberto. As configurações disponíveis estão descritas abaixo.

Geral

Método de atualização

A tarefa de aterrisagem sempre começa com carregamento total. Após a conclusão do carregamento total, você poderá manter os dados recebidos atualizados usando um dos seguintes métodos:

Não é possível alterar o método de atualização depois que a operação de preparação da tarefa de dados de aterrisagem for concluída.

Captura de dados de alterações (CDC)

Os dados aterrissados permanecem atualizados usando a tecnologia CDC (captura de dados alterados). O CDC talvez não tenha suporte por todas as fontes de dados. O CDC não captura operações DDL, como renomear colunas ou alterações em metadados.

Se os seus dados também contiverem exibições ou tabelas que não são compatíveis com CDC, dois pipelines de dados serão criados. Um pipeline com todas as tabelas compatíveis com CDC e outro pipeline com todas as outras tabelas e exibições usando a opção Recarregar como método de atualização.
Carregar

Todos os dados aterrisados são recarregados da origem. Isso é útil quando a sua origem não é compatível com CDC, mas pode ser usada com qualquer fonte de dados com suporte.

Você pode agendar os carregamentos periodicamente.

Nota informativaEsta configuração não está disponível ao usar um Conector de visualização do aplicativo SaaS. Conectores Preview são indicados por um botão , tanto no diálogo Criar conexão quanto na ajuda online.

Pasta para uso

Selecione qual pasta usar ao aterrissar dados na área de preparação.

Pasta padrão

Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
Pasta raiz

Armazene dados na pasta raiz do armazenamento.
Pasta

Especifique um nome de pasta a ser usado.

Upload de dados

Atributos do arquivo

Configure as definições de arquivo para fazer upload de dados.

Delimitador de campo
O caractere delimitador de campo usado no arquivo de fonte de dados. O padrão é ",".
Valor nulo
Cadeia de caracteres padrão opcional para substituir valores nulos no arquivo de fonte de dados.
Delimitador de registro
O caractere delimitador de registro usado no arquivo de dados de origem. O padrão é "\n".
Caractere de citação
O caractere de aspas usado no arquivo de dados de origem. O padrão é """.
Caractere de escape de citação
O caractere de escape de aspas usado no arquivo de dados de origem. O padrão é """.
Tamanho máximo de arquivo (KB)

O tamanho máximo que um arquivo pode atingir antes de ser fechado. Arquivos menores podem ser carregados mais rapidamente (dependendo da rede) e melhorar o desempenho quando usados em conjunto com a opção de execução paralela. No entanto, geralmente é considerado uma má prática sobrecarregar o banco de dados com arquivos pequenos.
Compactar arquivos usando

Quando selecionado, os arquivos CSV serão compactados usando GZIP.
Nota informativa
- Requer o Gateway Data Movement 2023.5.16 ou mais recente.

Metadados

Colunas LOB

Incluir colunas LOB e limitar o tamanho da coluna a (KB):

Você pode optar por incluir colunas LOB na tarefa e definir o tamanho máximo do LOB. LOBs maiores que o tamanho máximo serão truncados.

Carregamento total

Essas configurações não estão disponíveis para tarefas definidas com um Conector Preview de aplicativos SaaS. Conectores Preview são indicados por um botão Imagem do botão Visualizar

, tanto no diálogo Criar conexão quanto na ajuda online.

Ajuste de desempenho

Número máximo de tabelas para carregar em paralelo: insira o número máximo de tabelas para carregar no destino de uma só vez. O valor padrão é 5.
Tempo limite de consistência da transação (segundos): insira o número de segundos para aguardar o fechamento das transações abertas, antes de iniciar a operação Carregamento total. O valor padrão é 600 (10 minutos). O carregamento total começará após o valor do tempo limite ser atingido, mesmo se houver transações ainda abertas.

Nota informativaPara replicar transações que estavam abertas quando o carregamento total foi iniciado, mas que só foram confirmadas depois que o valor do tempo limite foi atingido, é necessário recarregar as tabelas de destino.
Taxa de confirmação durante carregamento total: o número máximo de eventos que podem ser transferidos juntos. O valor padrão é 10.000.

Após a conclusão do carregamento total

Criar chave primária ou exclusiva: selecione esta opção se desejar atrasar a criação da chave primária ou do índice exclusivo na plataforma de dados até que o carregamento total seja concluído.

Tratamento de erros

O tratamento de erros de dados é compatível apenas com o método de atualização Captura de dados alterados (CDC).

Para erros de truncamento de dados: Selecione o que você deseja que aconteça quando ocorrer um truncamento em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:

Ignorar: A tarefa continua e o erro é ignorado.
Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Para outros erros de dados: Selecione o que você deseja que aconteça quando ocorrer um erro em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:

Ignorar: A tarefa continua e o erro é ignorado.
Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Escalar o tratamento de erros quando outros erros de dados atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de dados não truncados (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.

Ação de escalonamento: Escolha o que deve acontecer quando o tratamento de erros for escalado. Observe que as ações disponíveis dependem da ação selecionada na lista suspensa Para outros erros de dados descrita acima.

Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são landed.
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Erros de tabela

Número de tentativas antes de retornar um erro de tabela

Essa opção permite que você controle quando a política de tratamento de erros da tabela será acionada. Por padrão, depois que um erro de tabela for encontrado, a tabela será suspensa ou a tarefa será interrompida (de acordo com a ação selecionada) após três tentativas. Às vezes, um erro de tabela ocorrerá devido à manutenção planejada do aplicativo SaaS. Nesses casos, o número padrão de novas tentativas pode não ser suficiente para que a manutenção seja concluída antes que a política de tratamento de erros da tabela seja acionada. Isso também depende do intervalo de agendamento da tarefa, pois uma nova tentativa será realizada sempre que a tarefa for executada. Assim, por exemplo, se você agendar uma tarefa para ser executada a cada hora e o aplicativo SaaS for colocado offline para manutenção assim que a tarefa começar a ser executada, o padrão de três tentativas permitirá que o aplicativo SaaS fique offline por até três horas sem que a política de tratamento de erros de tabela seja acionada. Uma janela de manutenção mais longa exigiria que você aumentasse o número de novas tentativas (ou alterasse a programação) para evitar que a política de tratamento de erros da tabela fosse acionada.

Em resumo, se você sabe que seu aplicativo SaaS passa por manutenção periódica, a prática recomendada é aumentar o número de tentativas de acordo com o agendamento para que a manutenção possa ser concluída sem que a política de tratamento de erros de tabela seja acionada.

Essa opção só será mostrada para tarefas configuradas com um conector de aplicativo SaaS Lite ou Standard.
Se você estiver usando o Gateway Data Movement, será necessária a versão 2024.11.70 ou posterior.

Ao encontrar um erro de tabela: selecione uma das seguintes opções na lista suspensa:

Suspender tabela (padrão): a tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
Parar tarefa: a tarefa é interrompida e é necessária intervenção manual.

Escalar o tratamento de erros quando os erros de tabela forem atingidos (por tabela): marque esta caixa de seleção para escalar o tratamento de erros quando o número de conflitos de aplicação (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.

Ação de escalonamento: a política de escalonamento para erros de tabela é definida como Parar tarefa e não pode ser alterada.

Ambiental

Contagem máxima de repetições: Selecione esta opção e especifique o número máximo de tentativas para repetir uma tarefa quando ocorrer um erro ambiental recuperável. Depois que a tarefa for repetida o número especificado de vezes, a tarefa será interrompida e a intervenção manual será necessária.

Para nunca repetir uma tarefa, desmarque a caixa de seleção ou especifique "0".

Para repetir uma tarefa um número infinito de vezes, especifique "-1"
- Intervalo entre novas tentativas (segundos): Use o contador para selecionar ou digitar o número de segundos que o sistema aguarda entre as tentativas de repetir uma tarefa.
  
  Os valores válidos são de 0 a 2.000.
Aumentar o intervalo de repetição para interrupções longas: Marque esta caixa de seleção para aumentar o intervalo de novas tentativas para interrupções longas. Quando esta opção está habilitada, o intervalo entre cada nova tentativa é duplicado, até que o Intervalo máximo de repetição seja atingido (e continue tentando de acordo com o intervalo máximo especificado).
- Intervalo máximo de repetição (segundos): Use o contador para selecionar ou digitar o número de segundos de espera entre as tentativas de repetir uma tarefa quando a opção Aumentar intervalo de repetição para interrupções longas estiver ativada. Os valores válidos são de 0 a 2.000.

Ajuste do processamento de alterações

Esta guia só está disponível quando o método de atualização é Captura de dados alterados (CDC).

Ajuste de descarga da transação

Descarregar as transações em andamento para o disco se:

Os dados da transação geralmente são mantidos na memória até que sejam totalmente confirmados na origem ou no destino. No entanto, as transações maiores que a memória alocada ou que não forem confirmadas dentro do limite de tempo especificado serão descarregadas no disco.

O tamanho total da memória para todas as transações excede (MB): o tamanho máximo que todas as transações podem ocupar na memória antes de serem descarregadas no disco. O valor padrão é 1024.
A duração da transação excede (segundos): o tempo máximo que cada transação pode permanecer na memória antes de ser descarregada no disco. A duração é calculada a partir do momento em que o Qlik Talend Data Integration começou a capturar a transação. O valor padrão é 60.

Ajuste em lote

Número mínimo de alterações por transação: O número mínimo de alterações a serem incluídas em cada transação. O valor padrão é 1000.
Nota informativa
As alterações serão aplicadas ao alvo quando o número de alterações for igual ou superior ao valor Número mínimo de alterações por transação OU quando o valor de Tempo máximo para transações em lote antes da aplicação (segundos) descrito abaixo for atingido - o que ocorrer primeiro. Como a frequência das alterações aplicadas ao destino é controlada por esses dois parâmetros, as alterações nos registros de origem podem não ser refletidas imediatamente nos registros de destino.
Tempo máximo para transações em lote antes da aplicação (segundos): o tempo máximo para coletar transações em lotes antes de declarar um tempo limite. O valor padrão é 1.

Ajuste diverso

Tamanho do cache de instruções (número de instruções): O número máximo de instruções preparadas a serem armazenadas no servidor para execução posterior (ao aplicar alterações no destino). O padrão é 50. O máximo é 200.
DELETE e INSERT ao atualizar uma coluna de chave primária: Esta opção requer que o log suplementar completo esteja ativado no banco de dados de origem.

Evolução do esquema

Selecione como lidar com os seguintes tipos de alterações de DDL no esquema. Depois de alterar as configurações de evolução do esquema, você deve preparar a tarefa novamente. A tabela abaixo descreve quais ações estão disponíveis para as alterações de DDL compatíveis.

Quando a tarefa é configurada com um conector Preview de aplicativos SaaS, somente a alteração DDL Alterar tipo de dados da coluna é aceita. Para descobrir se seu conector está em pré-visualização, consulte a ajuda do conector.

Alteração de DDL	Aplicar ao destino	Ignorar	Suspender tabela	Interromper tarefa
Adicionar coluna	Sim	Sim	Sim	Sim
Renomear coluna	Não	Não	Sim	Sim
Renomear tabela	Não	Não	Sim	Sim
Alterar o tipo de dados da coluna	Não	Sim	Sim	Sim
Criar tabela Se você usou uma Regra de seleção para adicionar conjuntos de dados que correspondem a um padrão, novas tabelas que atendem ao padrão serão detectadas e adicionadas.	Sim	Sim	Não	Não

Substituição de caracteres

Você pode substituir ou excluir caracteres de origem no banco de dados de destino e/ou substituir ou excluir caracteres de origem que não são compatíveis com um conjunto de caracteres selecionado.

Todos os caracteres devem ser especificados como pontos de código Unicode.
A substituição de caracteres também será realizada nas tabelas de controle.

Valores inválidos serão indicados por um triângulo vermelho no canto superior direito da célula da tabela. Passar o cursor do mouse sobre o triângulo mostrará a mensagem de erro.

Quaisquer transformações globais ou em nível de tabela definidas para a tarefa serão executadas após a conclusão da substituição de caracteres.
As ações de substituição definidas na tabela Substituir ou excluir caracteres de origem são executadas antes da ação de substituição definida na tabela Substituir ou excluir caracteres de origem não compatíveis com o conjunto de caracteres selecionado.
A substituição de caracteres não aceita tipos de dados LOB.

Substituindo ou excluindo caracteres de origem

Use a tabela Substituir ou excluir caracteres de origem para definir substituições para caracteres de origem específicos. Isso pode ser útil, por exemplo, quando a representação Unicode de um caractere é diferente nas plataformas de origem e de destino. Por exemplo, no Linux, o caractere de menos no conjunto de caracteres Shift_JIS é representado como U+2212, mas no Windows é representado como U+FF0D.

Ações de substituição
Até	Faça isto
Defina ações de substituição.	Clique no botão Adicionar caractere acima da tabela. Especifique um caractere de origem e um caractere de destino nos campos Caractere de origem e Caractere substituto, respectivamente. Por exemplo, para substituir a letra "a" pela letra "e", especifique 0061 e 0065 respectivamente. Nota informativa Para excluir o caractere de origem especificado, insira 0 na coluna Caractere substituto. Repita as etapas 1 a 2 para substituir ou excluir caracteres adicionais.
Editar o caractere de origem ou destino especificado	Clique em no final da linha e selecione Editar.
Excluir entradas da tabela	Clique em no final da linha e selecione Excluir.

Substituindo ou excluindo caracteres de origem não compatíveis com o conjunto de caracteres selecionado

Use a tabela Caracteres de origem não compatíveis com o conjunto de caracteres para definir um único caractere de substituição para todos os caracteres não compatíveis com o conjunto de caracteres selecionado.

Ações de substituição de caracteres não compatíveis
Até	Faça isto
Defina ou edite uma ação de substituição.	Selecione um conjunto de caracteres na lista suspensa Conjunto de caracteres da tabela. Quaisquer caracteres não compatíveis com o conjunto de caracteres selecionado serão substituídos no destino pelo caractere especificado na etapa 2 abaixo. Na coluna Caractere substituto, clique em qualquer lugar da coluna e especifique o caractere de substituição. Por exemplo, para substituir todos os caracteres não compatíveis pela letra "a", insira 0061. Nota informativa Para excluir todos os caracteres não compatíveis, insira 0.
Desabilite a ação de substituição.	Selecione a entrada em branco na lista suspensa Conjunto de caracteres.

Mais opções

Essas opções não são expostas na UI, pois são relevantes apenas para versões ou ambientes específicos. Consequentemente, não as defina, a menos que seja explicitamente instruído a fazê-lo pelo Suporte da Qlik ou na documentação do produto.

Para definir uma opção, basta copiá-la no campo Adicionar nome do recurso e clicar em Adicionar. Em seguida, defina o valor ou habilite a opção de acordo com as instruções que você recebeu.

Carregando segmentos de conjuntos de dados em paralelo

Essa configuração não está disponível para origens de aplicativos SaaS e só está disponível para um subconjunto específico de bancos de dados de origem e de destino.

Durante o carregamento total, você pode acelerar o carregamento de grandes conjuntos de dados dividindo o conjunto de dados em segmentos, que serão carregados em paralelo. As tabelas podem ser divididas por intervalos de dados, todas as partições, todas as subpartições ou partições específicas.

Para obter mais informações, consulte Aterrisando segmentos de conjuntos de dados em paralelo

Programando tarefas de CDC ao trabalhar sem o Gateway Data Movement

Para usar o Agendador, é necessário ter a função Pode operar ou a função Pode editar.

O Gateway Data Movement não é compatível com uma assinatura do Iniciante do Qlik Talend Cloud e é opcional com outros níveis de assinatura. Ao trabalhar sem o Gateway Data Movement, você mantém os dados de destino atualizados definindo um intervalo de programação. A programação determina com que frequência os conjuntos de dados de destino serão atualizados com alterações nos conjuntos de dados de origem. Enquanto a programação determina a frequência de atualização, o tipo de conjunto de dados determina o método de atualização. Se os conjuntos de dados de origem forem compatíveis com CDC (Captura de dados de alterações), apenas as alterações nos dados de origem serão replicadas e aplicadas às tabelas de destino correspondentes. Se os conjuntos de dados de origem não forem compatíveis com CDC (por exemplo, Visualizações), as alterações serão aplicadas recarregando todos os dados de origem nas tabelas de destino correspondentes. Se alguns dos conjuntos de dados de origem forem compatíveis com CDC e outros não, duas subtarefas separadas serão criadas: uma para recarregar os conjuntos de dados que não são compatíveis com CDC e outra para capturar as alterações nos conjuntos de dados que são compatíveis com CDC. Neste caso, para garantir a consistência dos dados, é altamente recomendável definir a mesma programação para ambas as subtarefas.

Para obter informações sobre os intervalos mínimos de agendamento de acordo com o tipo de fonte de dados e o nível de assinatura, consulte Intervalos mínimos de agendamento permitidos.

Para alterar a programação:

Abra seu projeto de pipeline e faça um dos seguintes procedimentos:
- Na exibição de tarefas, clique em na tarefa de dados e selecione Programação.
- Na exibição do pipeline, clique em na tarefa de dados e selecione Programação.
- Abra a tarefa de aterrisagem e clique no botão Programação da barra de ferramentas.
Altere as configurações de agendamento conforme necessário e clique em OK.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui