Configurações de aterrisagem
Você pode definir configurações para a tarefa de dados de aterrisagem.
-
Abra a tarefa de aterrisagem e clique em Configurações na barra de ferramentas.
O diálogo Configurações: <Nome-da-tarefa> é aberto. As configurações disponíveis estão descritas abaixo.
Geral
-
Banco de dados
Banco de dados a ser usado no destino.
Nota informativaEssa opção não está disponível ao enviar dados ao Qlik Cloud (via Amazon S3). -
Esquema de tarefa
Você pode alterar o nome do esquema da tarefa de dados de aterrisagem. O nome padrão é aterrisagem.
Nota informativaEssa opção não está disponível ao enviar dados ao Qlik Cloud (via Amazon S3). -
Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.
Nota informativaEssa opção não está disponível ao enviar dados ao Qlik Cloud (via Amazon S3).Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados. -
Método de atualização
A tarefa de aterrisagem sempre começa com carregamento total. Após a conclusão do carregamento completo, você poderá manter os dados recebidos atualizados usando um dos seguintes métodos:
Nota informativaNão é possível alterar o método de atualização depois que a operação de preparação da tarefa de dados de aterrisagem for concluída.-
Captura de dados de alterações (CDC)
Os dados aterrissados permanecem atualizados usando a tecnologia CDC (captura de dados alterados). O CDC talvez não tenha suporte por todas as fontes de dados. O CDC não captura operações DDL, como renomear colunas ou alterações em metadados.
Se os seus dados também contiverem exibições ou tabelas que não são compatíveis com CDC, dois pipelines de dados serão criados. Um pipeline com todas as tabelas compatíveis com CDC e outro pipeline com todas as outras tabelas e exibições usando a opção Recarregar e comparar como método de atualização.
-
Recarregar e comparar
Todos os dados aterrisados são recarregados da origem. Isso é útil quando a sua origem não é compatível com CDC, mas pode ser usada com qualquer fonte de dados com suporte.
Você pode agendar os carregamentos periodicamente.
-
-
Pasta para usar na área de preparação
Para plataformas de dados que exigem uma área de teste (por exemplo, Databricks e Azure Synapse Analytics), você pode selecionar qual pasta usar ao aterrisar dados.
-
Pasta padrão
Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
-
Pasta raiz
Armazene dados na pasta raiz do armazenamento.
Nota informativaEssa opção só está disponível ao enviar dados ao Qlik Cloud (via Amazon S3). -
Pasta
Especifique um nome de pasta a ser usado.
-
-
Alterar intervalo de processamento
Você pode definir o intervalo entre o processamento das alterações da fonte.
Nota informativaEssa opção só está disponível ao enviar dados ao Qlik Cloud (via Amazon S3). -
Servidor proxy ao usar o gateway de Data Movement
Nota informativaEsta opção só está disponível ao acessar destinos por meio do Data Movement gateway.Você pode optar por usar um servidor proxy quando o gateway de Movimentação de dados se conecta ao data warehouse de nuvem e à área de armazenamento.
Para obter mais informações sobre como configurar o gateway de Movimentação de dados para usar um servidor proxy, consulte Configurando o locatário do Qlik Cloud e um servidor proxy.
-
Usar proxy para conectar-se ao data warehouse de nuvem
Nota informativaDisponível ao usar o Snowflake, o Google BigQuery e o Databricks. -
Usar proxy para conectar ao armazenamento
Nota informativaDisponível ao usar o Azure Synapse Analytics, o Amazon Redshift e o Databricks.
-
Upload de dados
-
Tamanho máximo de arquivos (MB)
O tamanho máximo que um arquivo pode atingir antes de ser fechado. Arquivos menores podem ser carregados mais rapidamente (dependendo da rede) e melhorar o desempenho quando usados em conjunto com a opção de execução paralela. No entanto, geralmente é considerado uma má prática sobrecarregar o banco de dados com arquivos pequenos.
Nota informativaEsta configuração é relevante para todas as plataformas de dados, exceto Qlik Cloud. -
Usar compactação
Quando selecionado, os arquivos CSV serão compactados (usando gzip) antes de serem enviados ao Google BigQuery.
Nota informativa- Essa configuração é relevante apenas para o Google BigQuery.
- Requer o Data Movement gateway 2023.5.16 ou mais recente.
Metadados
Colunas LOB
-
Incluir colunas LOB e limitar o tamanho da coluna a (KB):
Você pode optar por incluir colunas LOB na tarefa e definir o tamanho máximo do LOB. LOBs maiores que o tamanho máximo serão truncados.
Nota informativaAo usar o Azure Synapse Analytics como destino, o tamanho máximo do LOB não pode exceder 7 MB.
Tabelas de controle
Selecione qual das seguintes tabelas de controle você deseja criar na plataforma de destino:
- Status da aterrisagem: Fornece detalhes sobre a tarefa de destino atual, incluindo status da tarefa, quantidade de memória consumida pela tarefa, número de alterações ainda não aplicadas à plataforma de dados e a posição no endpoint de origem a partir do qual o Data Movement gateway está lendo no momento.
- Tabelas suspendidas: Fornece uma lista de tabelas suspensas e o motivo pelo qual foram suspensas.
- Histórico de aterrisagem: Fornece informações sobre o histórico de tarefas, incluindo o número e o volume de registros processados durante uma tarefa de aterrisagem, a latência no final de uma tarefa de CDC e muito mais.
-
Histórico de DDL: contém um histórico de todas as alterações DDL compatíveis que ocorreram durante uma tarefa.
Nota informativaA tabela Histórico de DDL é compatível apenas com as seguintes plataformas de destino:
-
Databricks
- Microsoft Fabric
-
Para uma descrição detalhada de cada uma das tabelas de controle, consulte Tabelas de controle
Carregamento total
Ajuste de desempenho
- Número máximo de tabelas para carregar em paralelo: insira o número máximo de tabelas para carregar no destino de uma só vez. O valor padrão é 5.
-
Tempo limite de consistência da transação (segundos): insira o número de segundos para aguardar o fechamento das transações abertas, antes de iniciar a operação Carregamento total. O valor padrão é 600 (10 minutos). O carregamento total começará após o valor do tempo limite ser atingido, mesmo se houver transações ainda abertas.
Nota informativaPara replicar transações que estavam abertas quando o carregamento total foi iniciado, mas que só foram confirmadas depois que o valor do tempo limite foi atingido, é necessário recarregar as tabelas de destino. - Taxa de confirmação durante carregamento total: o número máximo de eventos que podem ser transferidos juntos. O valor padrão é 10.000.
Após a conclusão do carregamento total
Criar chave primária ou exclusiva: selecione esta opção se desejar atrasar a criação da chave primária ou do índice exclusivo na plataforma de dados até que o carregamento total seja concluído.
Para carga inicial
Ao mover dados de uma origem de aplicativo SaaS, você pode definir como executar o carregamento total inicial:
Usar dados em cache |
Esta opção permite usar dados em cache que foram lidos ao gerar metadados com a opção Verificação de dados completa selecionada. Isso cria menos sobrecarga em relação ao uso e cotas da API, pois os dados já são lidos da origem. Quaisquer alterações desde a verificação de dados inicial podem ser selecionadas pelo Change data capture (CDC). |
Carregar dados a partir da fonte |
Esta opção executa um novo carregamento da fonte de dados. Esta opção é útil se:
|
Tratamento de erros
Erros de dados
O tratamento de erros de dados é compatível apenas com o método de atualização Captura de dados alterados (CDC).
Para erros de truncamento de dados: Selecione o que você deseja que aconteça quando ocorrer um truncamento em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:
- Ignorar: A tarefa continua e o erro é ignorado.
- Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Para outros erros de dados: Selecione o que você deseja que aconteça quando ocorrer um erro em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:
- Ignorar: A tarefa continua e o erro é ignorado.
- Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Escalar o tratamento de erros quando outros erros de dados atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de dados não truncados (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.
Ação de escalonamento: Escolha o que deve acontecer quando o tratamento de erros for escalado. Observe que as ações disponíveis dependem da ação selecionada na lista suspensa Para outros erros de dados descrita acima.
-
Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são landed.
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Erros de tabela
Ao encontrar um erro de tabela: Selecione uma das seguintes opções na lista suspensa:
- Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados.
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Escalar o tratamento de erros quando os erros da tabela atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de tabela (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.
Ação de escalonamento: A política de escalonamento para erros de tabela é definida como Parar tarefa e não pode ser alterada.
Ambiental
-
Contagem máxima de repetições: Selecione esta opção e especifique o número máximo de tentativas para repetir uma tarefa quando ocorrer um erro ambiental recuperável. Depois que a tarefa for repetida o número especificado de vezes, a tarefa será interrompida e a intervenção manual será necessária.
Para nunca repetir uma tarefa, desmarque a caixa de seleção ou especifique "0".
Para repetir uma tarefa um número infinito de vezes, especifique "-1"
-
Intervalo entre novas tentativas (segundos): Use o contador para selecionar ou digitar o número de segundos que o sistema aguarda entre as tentativas de repetir uma tarefa.
Os valores válidos são de 0 a 2.000.
-
- Aumentar o intervalo de repetição para interrupções longas: Marque esta caixa de seleção para aumentar o intervalo de novas tentativas para interrupções longas. Quando esta opção está habilitada, o intervalo entre cada nova tentativa é duplicado, até que o Intervalo máximo de repetição seja atingido (e continue tentando de acordo com o intervalo máximo especificado).
- Intervalo máximo de repetição (segundos): Use o contador para selecionar ou digitar o número de segundos de espera entre as tentativas de repetir uma tarefa quando a opção Aumentar intervalo de repetição para interrupções longas estiver ativada. Os valores válidos são de 0 a 2.000.
Ajuste do processamento de alterações
Ajuste de descarga transacional
-
Descarregar as transações em andamento para o disco se:
Os dados da transação geralmente são mantidos na memória até que sejam totalmente confirmados na origem ou no destino. No entanto, as transações maiores que a memória alocada ou que não forem confirmadas dentro do limite de tempo especificado serão descarregadas no disco.
- O tamanho total da memória para todas as transações excede (MB): o tamanho máximo que todas as transações podem ocupar na memória antes de serem descarregadas no disco. O valor padrão é 1024.
- A duração da transação excede (segundos): o tempo máximo que cada transação pode permanecer na memória antes de ser descarregada no disco. A duração é calculada a partir do momento em que o Qlik Talend Data Integration começou a capturar a transação. O valor padrão é 60.
Ajuste em lote
Algumas das configurações nesta guia
Configurações relevantes para todos os alvos, exceto o Qlik Cloud:
- Aplicar alterações em lote em intervalos:
-
Mais que: o tempo mínimo de espera entre cada aplicação de alterações em lote. O valor padrão é 1.
Aumentar o valor de Mais que diminui a frequência com que as alterações são aplicadas ao alvo enquanto aumenta o tamanho dos lotes. Isso pode melhorar o desempenho ao aplicar alterações em bancos de dados de destino otimizados para processamento de lotes grandes.
- Menor que: o tempo máximo de espera entre cada aplicação de alterações em lote (antes de declarar um tempo limite). Em outras palavras, a latência máxima aceitável. O valor padrão é 30. Esse valor determina o tempo máximo de espera antes de aplicar as alterações, após o valor de Mais que ter sido atingido.
-
Forçar a aplicação de um lote quando a memória de processamento exceder (MB): a quantidade máxima de memória a ser usada para pré-processamento. O valor padrão é 500 MB.
Para o tamanho máximo do lote, defina esse valor para a maior quantidade de memória que você puder alocar para a tarefa de dados. Isso pode melhorar o desempenho ao aplicar alterações em bancos de dados de destino otimizados para processamento de lotes grandes.
-
Aplicar alterações em lote a várias tabelas simultaneamente: a seleção desta opção deve melhorar o desempenho ao aplicar alterações de diversas tabelas de origem.
-
Número máximo de tabelas: O número máximo de tabelas às quais aplicar alterações em lote simultaneamente. O padrão é cinco.
Nota informativaEsta opção não é compatível ao usar o Google BigQuery como plataforma de dados. -
-
Limite o número de alterações aplicadas por instrução de processamento de alterações para: selecione esta opção para limitar o número de alterações aplicadas em um único comando de processamento de alterações. O valor padrão é 10,000.
Nota informativaEsta opção só é compatível ao usar o Google BigQuery como plataforma de dados.
Configurações relevantes apenas para o Qlik Cloud:
-
Número mínimo de alterações por transação: O número mínimo de alterações a serem incluídas em cada transação. O valor padrão é 1000.
Nota informativaAs alterações serão aplicadas ao alvo quando o número de alterações for igual ou superior ao valor Número mínimo de alterações por transação OU quando o valor de Tempo máximo para transações em lote antes da aplicação (segundos) descrito abaixo for atingido - o que ocorrer primeiro. Como a frequência das alterações aplicadas ao destino é controlada por esses dois parâmetros, as alterações nos registros de origem podem não ser refletidas imediatamente nos registros de destino.
- Tempo máximo para transações em lote antes da aplicação (segundos): o tempo máximo para coletar transações em lotes antes de declarar um tempo limite. O valor padrão é 1.
Intervalo
-
Ler alterações a cada (minutos)
Defina o intervalo entre a leitura de alterações na origem, em minutos. O intervalo válido é de 1 a 1440.
Nota informativaEsta opção está disponível apenas quando:
- Usando Data Movement gateway
- Aterrisando dados de fontes de aplicativos SaaS
- A tarefa é definida com o método de atualização Captura de dados de alteração (CDC)
Ajuste diverso
- Tamanho do cache de instruções (número de instruções): O número máximo de instruções preparadas a serem armazenadas no servidor para execução posterior (ao aplicar alterações no destino). O padrão é 50. O máximo é 200.
-
DELETE e INSERT ao atualizar uma coluna de chave primária: Esta opção requer que o log suplementar completo esteja ativado no banco de dados de origem.
Substituição de caracteres
Você pode substituir ou excluir caracteres de origem no banco de dados de destino e/ou substituir ou excluir caracteres de origem que não são compatíveis com um conjunto de caracteres selecionado.
Todos os caracteres devem ser especificados como pontos de código Unicode.
- A substituição de caracteres também será realizada nas tabelas de controle.
Valores inválidos serão indicados por um triângulo vermelho no canto superior direito da célula da tabela. Passar o cursor do mouse sobre o triângulo mostrará a mensagem de erro.
Quaisquer transformações globais ou em nível de tabela definidas para a tarefa serão executadas após a conclusão da substituição de caracteres.
As ações de substituição definidas na tabela Substituir ou excluir caracteres de origem são executadas antes da ação de substituição definida na tabela Substituir ou excluir caracteres de origem não compatíveis com o conjunto de caracteres selecionado.
- A substituição de caracteres não aceita tipos de dados LOB.
Substituindo ou excluindo caracteres de origem
Use a tabela Substituir ou excluir caracteres de origem para definir substituições para caracteres de origem específicos. Isso pode ser útil, por exemplo, quando a representação Unicode de um caractere é diferente nas plataformas de origem e de destino. Por exemplo, no Linux, o caractere de menos no conjunto de caracteres Shift_JIS é representado como U+2212, mas no Windows é representado como U+FF0D.
Até | Faça isto |
---|---|
Defina ações de substituição. |
|
Editar o caractere de origem ou destino especificado | Clique em no final da linha e selecione Editar. |
Excluir entradas da tabela | Clique em no final da linha e selecione Excluir. |
Substituindo ou excluindo caracteres de origem não compatíveis com o conjunto de caracteres selecionado
Use a tabela Caracteres de origem não compatíveis com o conjunto de caracteres para definir um único caractere de substituição para todos os caracteres não compatíveis com o conjunto de caracteres selecionado.
Até | Faça isto |
---|---|
Defina ou edite uma ação de substituição. |
|
Desabilite a ação de substituição. | Selecione a entrada em branco na lista suspensa Conjunto de caracteres. |
Mais opções
Essas opções não são expostas na UI, pois são relevantes apenas para versões ou ambientes específicos. Consequentemente, não as defina, a menos que seja explicitamente instruído a fazê-lo pelo Suporte da Qlik ou na documentação do produto.
Para definir uma opção, basta copiá-la no campo Adicionar nome do recurso e clicar em Adicionar. Em seguida, defina o valor ou habilite a opção de acordo com as instruções que você recebeu.
Programando tarefas de CDC ao trabalhar sem o Data Movement gateway
O Data Movement gateway não é compatível com uma assinatura do Iniciante do Qlik Talend Cloud e é opcional com outros níveis de assinatura. Ao trabalhar sem o Data Movement gateway, você mantém os dados de destino atualizados definindo um intervalo de programação. A programação determina com que frequência os conjuntos de dados de destino serão atualizados com alterações nos conjuntos de dados de origem. Enquanto a programação determina a frequência de atualização, o tipo de conjunto de dados determina o método de atualização. Se os conjuntos de dados de origem forem compatíveis com CDC (Captura de dados de alterações), apenas as alterações nos dados de origem serão replicadas e aplicadas às tabelas de destino correspondentes. Se os conjuntos de dados de origem não forem compatíveis com CDC (por exemplo, Visualizações), as alterações serão aplicadas recarregando todos os dados de origem nas tabelas de destino correspondentes. Se alguns dos conjuntos de dados de origem forem compatíveis com CDC e outros não, duas subtarefas separadas serão criadas: uma para recarregar os conjuntos de dados que não são compatíveis com CDC e outra para capturar as alterações nos conjuntos de dados que são compatíveis com CDC. Neste caso, para garantir a consistência dos dados, é altamente recomendável definir a mesma programação para ambas as subtarefas.
Para obter informações sobre os intervalos mínimos de agendamento de acordo com o tipo de fonte de dados e o nível de assinatura, consulte Intervalos mínimos de agendamento permitidos.
Para alterar a programação:
Abra seu projeto de dados e siga um destes procedimentos:
- Na exibição de tarefas, clique em na tarefa de dados e selecione Programação.
- Na exibição do pipeline, clique em na tarefa de dados e selecione Programação.
- Abra a tarefa de aterrisagem e clique no botão Programação da barra de ferramentas.
- Altere as configurações de agendamento conforme necessário e clique em OK.