Configurações de aterrisagem em um data lake

Você pode alterar as configurações padrão de destino do data lake de acordo com suas necessidades.

Geral

Método de atualização

Você pode aterrissar dados em dois modos diferentes. Não é possível alterar o modo depois que a tarefa de aterrisagem do data lake estiver preparada.

Captura de dados de alterações (CDC) As tarefas de preparação de data lake começam com um carregamento total (durante o qual todas as tabelas selecionadas são preparadas). Os dados preparados então permanecem atualizados usando a tecnologia de CDC (Captura de dados de alterações).

Nota informativaNão há suporte para a CDC (Captura de dados de alterações) de operações DDL.
Recarregamento: Faz um carregamento total dos dados das tabelas de origem selecionadas na plataforma de destino e cria as tabelas de destino, se necessário. O carregamento total ocorre automaticamente quando a tarefa é iniciada, mas também pode ser realizado manualmente ou agendado para ocorrer periodicamente, se necessário.

Pasta para uso

Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:

Pasta padrão: O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
Pasta raiz: os arquivos serão gravados diretamente no bucket.
Pasta: insira o nome da pasta. A pasta será criada durante a tarefa de preparo do data lake se ainda não existir.

Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).

Particionamento de dados de alteração

Esta opção só está disponível quando o método de atualização é Captura de dados alterados (CDC).

Em uma tarefa de aterrisagem padrão, as alterações são aterrisadas ao destino sem nenhuma ordem específica. O particionamento de dados de alterações permite o processamento de dados de alterações de muitas tabelas de maneira consistente. Você pode definir a duração das partições, bem como o tempo base de particionamento, garantindo assim a consistência geral dos dados particionados (ou seja, nenhuma transação parcial, nenhum cabeçalho de pedido sem linhas de pedidos, e assim por diante).

As informações sobre as partições são registradas na tabela de controle attrep_cdc_partitions no banco de dados de destino. Essas informações podem ser usadas para identificar dados particionados que precisam ser processados posteriormente.

As opções de particionamento são as seguintes:

Particionar a cada - especifique a duração (em horas e minutos) de cada partição.

Nota informativa
Recomenda-se especificar uma duração de partição superior a uma hora. Embora especificar um comprimento de partição inferior a uma hora possa melhorar a latência, a criação de muitas partições no destino também pode impactar o desempenho (de destino) (especialmente em sistemas com grandes volumes de alterações).

Se você retomar uma tarefa ANTES do momento em que a última partição foi criada, a tarefa de aterrisagem do data lake será gravada em uma partição que já foi fechada.
Tempo base de particionamento - as partições são criadas durante um período de 24 horas, que é calculado de acordo com o "Tempo base de particionamento" especificado no banco de dados de origem no horário UTC. Por exemplo, um intervalo de partição de 8 horas com um tempo de "Tempo base de particionamento" de 02:00 criará as seguintes partições: 02:00-10:00, 10:00-18:00, 18:00-02:00, mas não necessariamente nesta ordem. Por exemplo, se uma tarefa começou às 01:00, então o período da primeira partição será 18:00-02:00. Além disso, se uma tarefa foi iniciada no meio de uma partição (por exemplo, às 04:00), seus dados de alterações serão inseridos na partição 02:00-10:00, mesmo que nenhuma alteração tenha sido capturada antes das 04:00.

Upload de dados

Atributos do arquivo

Formato

Você pode optar por criar os arquivos de destino no formato CSV, JSON ou Parquet.

Ao usar o formato de arquivo Parquet, colunas LOB maiores que 1 MB não são compatíveis

Em um arquivo JSON, cada registro é representado por uma única linha, como no exemplo a seguir:

{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }

{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }

{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }

Consulte também: Propriedades de content-type e content-encoding

Não há suporte para alterar o formato (por exemplo, de CSV para JSON ou de JSON para CSV) enquanto a tarefa está em um estado interrompido e, em seguida, retomá-la.

Se você escolher o formato JSON ou Parquet , os seguintes campos ficarão ocultos, pois são relevantes apenas para o formato CSV: Delimitador de campo, Delimitador de registro, Valor nulo, Caractere de citação, Caractere de escape de citação e Adicionar cabeçalho de metadados.
Os campos a seguir são relevantes apenas para o formato Parquet: Versão Parquet, Unidade de carimbo de data/hora Parquet e Tamanho máximo de LOB (KB) Parquet.

Para obter informações sobre mapeamentos de tipos de dados ao usar o formato Parquet e limitações, consulte Supported data types e Amazon S3.

Delimitador de campo

O delimitador que será usado para separar campos (colunas) nos arquivos de destino. O padrão é uma vírgula.

Exemplo de uso de vírgula como delimitador:

"mike","male"

Delimitadores podem ser caracteres padrão ou um valor hexadecimal (hex). Observe que o prefixo "0x" deve ser usado para denotar um delimitador hexadecimal (por exemplo, 0x01 = SOH). Nos campos Delimitador de campo, Delimitador de registro e Valor nulo, o delimitador pode consistir em valores hexadecimais concatenados (por exemplo, 0x0102 = SOHSTX), enquanto nos campos Caractere de citação e Caractere de escape de citação, ele só pode ser um único valor hexadecimal.

O número hexadecimal 0x00 não é compatível (ou seja, apenas 0x01-0xFF são aceitos).

Valor nulo

A string que será usada para indicar um valor nulo nos arquivos de destino.

Exemplo (em que \n é o delimitador de registro e @ é o valor nulo):

"mike","male",295678\n

"sara","female",@\n

Delimitador de registro

O delimitador que será usado para separar registros (linhas) nos arquivos de destino. O padrão é uma nova linha (\n).

Exemplo:

"mike","male"\n

"sara","female"\n

Caractere de citação

O caractere que será usado no início e no final de uma coluna de texto. O padrão é o caractere de aspas duplas ("). Quando uma coluna que contém delimitadores de coluna é colocada entre aspas duplas, os caracteres delimitadores de coluna são interpretados como dados reais, e não como delimitadores de coluna.

Exemplo (em que @ é o caractere de aspa):

@mike@,@male@

Caractere de escape de citação

O caractere usado para escapar de um caractere de aspas nos dados reais. O padrão é o caractere de aspas duplas (").

Exemplo (onde " é o caractere de aspas e \ é o caractere de escape):

1955,"old, \"rare\", Chevrolet","$1000"

Versão Parquet

Selecione qual versão usar de acordo com qual versão a plataforma de destino suporta. Observe que o Parquet versão 1.0 oferece suporte apenas à unidade de carimbo de data/hora MICRO, enquanto o Parquet versão 2.6 oferece suporte a unidades de carimbo de data/hora MICRO e NANO .

Unidade de carimbo de data/hora Parquet

Quando a versão do Parquet for definida como 2.6, escolha MICRO ou NANO. Quando a versão Parquet está definida como 1.0, apenas MICRO tem suporte.

Tamanho máximo de LOB em parquet (KB)

O tamanho máximo padrão do LOB é 64 KB e o valor máximo que você pode inserir neste campo é 10.000 KB. O tratamento de colunas LOB requer mais recursos, o que, por sua vez, afeta o desempenho. Aumente esse valor somente se você estiver replicando dados LOB maiores que 64 KB e precisar que todos os dados LOB sejam replicados para o destino.

Tamanho máximo do arquivo

O tamanho máximo que um arquivo pode atingir antes de ser fechado (e opcionalmente compactado).

O tamanho máximo que um arquivo pode atingir antes de ser fechado. Arquivos menores podem ser carregados mais rapidamente (dependendo da rede) e melhorar o desempenho quando usados em conjunto com a opção de execução paralela. No entanto, geralmente é considerado uma má prática sobrecarregar o banco de dados com arquivos pequenos.

Compactar arquivos usando

Escolha uma das opções de compactação para compactar os arquivos de destino ou NONE (o padrão) para deixá-los descompactados. Observe que as opções de compactação disponíveis são determinadas pelo formato de arquivo selecionado.

Adicionar cabeçalho de metadados

Opcionalmente, você pode adicionar uma linha de cabeçalho aos arquivos de dados. A linha do cabeçalho pode conter os nomes das colunas de origem e/ou os tipos de dados intermediários (como Gateway Data Movement).

Exemplo de um arquivo de destino com uma linha de cabeçalho quando ambas as opções Com nomes de colunas e Com tipos de dados estão selecionadas:

Position:DECIMAL(38,0),Color:VARCHAR(10)

1,"BLUE"

2,"BROWN"

3,"RED"

...

Alterar processamento

Esta seção descreve configurações condicionais no Processamento de alterações.

Aplicar/armazenar alterações quando

O tamanho do arquivo atinge: especifique o tamanho máximo dos dados de alterações a serem acumulados antes de carregar o arquivo no alvo.
O tempo decorrido atinge: o tempo decorrido atinge x.

Arquivos de metadados

Quando a opção Criar arquivos de metadados na pasta de destino estiver selecionada, para cada arquivo de dados, um arquivo de metadados correspondente com extensão .dfm será criado na pasta de destino especificada. Os arquivos de metadados fornecem informações adicionais sobre a tarefa/dados, como o tipo de conector de origem, o nome da tabela de origem, o número de registros no arquivo de dados e assim por diante.

Para uma descrição completa do arquivo de metadados, bem como possíveis usos, consulte Descrição do arquivo de metadados

Metadados

Colunas LOB

Incluir colunas LOB e limitar o tamanho da coluna a (KB):

Você pode optar por incluir colunas LOB na tarefa e definir o tamanho máximo do LOB. LOBs maiores que o tamanho máximo serão truncados.

Tabelas de controle

Selecione qual das seguintes tabelas de controle você deseja criar na plataforma de destino:

Aterrisagem Status: Fornece detalhes sobre a tarefa de destino atual, incluindo status da tarefa, quantidade de memória consumida pela tarefa, número de alterações ainda não aplicadas à plataforma de dados e a posição no endpoint de origem a partir do qual o Data Movement gateway está lendo no momento.
Tabelas suspendidas: Fornece uma lista de tabelas suspensas e o motivo pelo qual foram suspensas.
Aterrisagem Histórico: Fornece informações sobre o histórico de tarefas, incluindo o número e o volume de registros processados durante uma tarefa de aterrisagem, a latência no final de uma tarefa de CDC e muito mais.
Partições de dados de alteração: Fornece registros de partições criadas no banco de dados de destino devido ao Particionamento de dados de alteração. Você pode usar essas informações para identificar dados particionados que precisam ser processados posteriormente.

Para uma descrição detalhada de cada uma das Tabelas de Controle, consulte Tabelas de controle

Carregamento total

Ajuste de desempenho

Número máximo de tabelas para carregar em paralelo: insira o número máximo de tabelas para carregar no destino de uma só vez. O valor padrão é 5.
Tempo limite de consistência da transação (segundos): insira o número de segundos para aguardar o fechamento das transações abertas, antes de iniciar a operação Carregamento total. O valor padrão é 600 (10 minutos). O carregamento total começará após o valor do tempo limite ser atingido, mesmo se houver transações ainda abertas.

Nota informativaPara replicar transações que estavam abertas quando o carregamento total foi iniciado, mas que só foram confirmadas depois que o valor do tempo limite foi atingido, é necessário recarregar as tabelas de destino.
Taxa de confirmação durante carregamento total: o número máximo de eventos que podem ser transferidos juntos. O valor padrão é 10.000.

Após a conclusão do carregamento total

Criar chave primária ou exclusiva: selecione esta opção se desejar atrasar a criação da chave primária ou do índice exclusivo na plataforma de dados até que o carregamento total seja concluído.

Para carga inicial

Esta guia só é relevante para tarefas de replicação com fontes de aplicativos SaaS.

Ao mover dados de uma origem de aplicativo SaaS, você pode definir como executar o carregamento total inicial:

Essas configurações requerem o Data Movement gateway versão 2022.11.74 ou mais recente.

Usar dados em cache

Esta opção permite usar dados em cache que foram lidos ao gerar metadados com a opção Verificação de dados completa selecionada.

Isso cria menos sobrecarga em relação ao uso e cotas da API, pois os dados já são lidos da origem. Quaisquer alterações desde a verificação de dados inicial podem ser selecionadas pelo Change data capture (CDC).

Carregar dados a partir da fonte

Esta opção executa um novo carregamento da fonte de dados. Esta opção é útil se:

A verificação de metadados não foi realizada recentemente.
O conjunto de dados de origem é pequeno e muda com frequência, e você não deseja manter um histórico completo das alterações.

Tratamento de erros

Erros de dados

O tratamento de erros de dados é compatível apenas com o método de atualização Captura de dados alterados (CDC).

Erros de truncamento de dados

Para erros de truncamento de dados: Selecione o que você deseja que aconteça quando ocorrer um truncamento em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:

Ignorar: A tarefa continua e o erro é ignorado.
Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Outros erros de dados

Para outros erros de dados: Selecione o que você deseja que aconteça quando ocorrer um erro em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:

Ignorar: A tarefa continua e o erro é ignorado.
Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Escalar tratamento de erros de dados

Escalar o tratamento de erros quando outros erros de dados atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de dados não truncados (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.

Ação de escalonamento: Escolha o que deve acontecer quando o tratamento de erros for escalado. Observe que as ações disponíveis dependem da ação selecionada na lista suspensa Para outros erros de dados descrita acima.

Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são landed.
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Erros de tabela

Ao encontrar um erro de tabela: Selecione uma das seguintes opções na lista suspensa:

Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados.
Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.

Escalar o tratamento de erros quando os erros da tabela atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de tabela (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.

Ação de escalonamento: A política de escalonamento para erros de tabela é definida como Parar tarefa e não pode ser alterada.

Ambiental

Contagem máxima de repetições: Selecione esta opção e especifique o número máximo de tentativas para repetir uma tarefa quando ocorrer um erro ambiental recuperável. Depois que a tarefa for repetida o número especificado de vezes, a tarefa será interrompida e a intervenção manual será necessária.

Para nunca repetir uma tarefa, desmarque a caixa de seleção ou especifique "0".

Para repetir uma tarefa um número infinito de vezes, especifique "-1"
- Intervalo entre novas tentativas (segundos): Use o contador para selecionar ou digitar o número de segundos que o sistema aguarda entre as tentativas de repetir uma tarefa.
  
  Os valores válidos são de 0 a 2.000.
Aumentar o intervalo de repetição para interrupções longas: Marque esta caixa de seleção para aumentar o intervalo de novas tentativas para interrupções longas. Quando esta opção está habilitada, o intervalo entre cada nova tentativa é duplicado, até que o Intervalo máximo de repetição seja atingido (e continue tentando de acordo com o intervalo máximo especificado).
- Intervalo máximo de repetição (segundos): Use o contador para selecionar ou digitar o número de segundos de espera entre as tentativas de repetir uma tarefa quando a opção Aumentar intervalo de repetição para interrupções longas estiver ativada. Os valores válidos são de 0 a 2.000.

Ajuste do processamento de alterações

Esta guia só está disponível quando o método de atualização é Captura de dados alterados (CDC).

Ajuste de descarga transacional

Descarregar as transações em andamento para o disco se:

Os dados da transação geralmente são mantidos na memória até que sejam totalmente confirmados na origem ou no destino. No entanto, as transações maiores que a memória alocada ou que não forem confirmadas dentro do limite de tempo especificado serão descarregadas no disco.
- O tamanho total da memória para todas as transações excede (MB): o tamanho máximo que todas as transações podem ocupar na memória antes de serem descarregadas no disco. O valor padrão é 1024.
- A duração da transação excede (segundos): o tempo máximo que cada transação pode permanecer na memória antes de ser descarregada no disco. A duração é calculada a partir do momento em que o Gateway Data Movement começou a capturar a transação. O valor padrão é 60.

Ajuste em lote

Número mínimo de alterações por transação: O número mínimo de alterações a serem incluídas em cada transação. O valor padrão é 1000.

Nota informativa
As alterações serão aplicadas ao alvo quando o número de alterações for igual ou superior ao valor Número mínimo de alterações por transação OU quando o valor de Tempo máximo para transações em lote antes da aplicação (segundos) descrito abaixo for atingido - o que ocorrer primeiro. Como a frequência das alterações aplicadas ao destino é controlada por esses dois parâmetros, as alterações nos registros de origem podem não ser refletidas imediatamente nos registros de destino.
Tempo máximo para transações em lote antes da aplicação (segundos): o tempo máximo para coletar transações em lotes antes de declarar um tempo limite. O valor padrão é 1.

Intervalo

Essa guia só é relevante para tarefas de replicação com fontes de aplicativos SaaS e somente quando o Método de atualização está definido como Captura de dados de alterações (CDC).

Ler alterações a cada (minutos)

Defina o intervalo entre a leitura de alterações na origem, em minutos. O intervalo válido é de 1 a 1.440.

Ajuste diverso

Tamanho do cache de instruções (número de instruções): O número máximo de instruções preparadas a serem armazenadas no servidor para execução posterior (ao aplicar alterações no destino). O padrão é 50. O máximo é 200.
DELETE e INSERT ao atualizar uma coluna de chave primária: Esta opção requer que o log suplementar completo esteja ativado no banco de dados de origem.

Substituição de caracteres

Você pode substituir ou excluir caracteres de origem no banco de dados de destino e/ou substituir ou excluir caracteres de origem que não são compatíveis com um conjunto de caracteres selecionado.

Todos os caracteres devem ser especificados como pontos de código Unicode.
A substituição de caracteres também será realizada nas tabelas de controle.

Valores inválidos serão indicados por um triângulo vermelho no canto superior direito da célula da tabela. Passar o cursor do mouse sobre o triângulo mostrará a mensagem de erro.

Quaisquer transformações globais ou em nível de tabela definidas para a tarefa serão executadas após a conclusão da substituição de caracteres.
As ações de substituição definidas na tabela Substituir ou excluir caracteres de origem são executadas antes da ação de substituição definida na tabela Substituir ou excluir caracteres de origem não compatíveis com o conjunto de caracteres selecionado.
A substituição de caracteres não aceita tipos de dados LOB.

Substituindo ou excluindo caracteres de origem

Use a tabela Substituir ou excluir caracteres de origem para definir substituições para caracteres de origem específicos. Isso pode ser útil, por exemplo, quando a representação Unicode de um caractere é diferente nas plataformas de origem e de destino. Por exemplo, no Linux, o caractere de menos no conjunto de caracteres Shift_JIS é representado como U+2212, mas no Windows é representado como U+FF0D.

Ações de substituição
Até	Faça isto
Defina ações de substituição.	Clique no botão Adicionar caractere acima da tabela. Especifique um caractere de origem e um caractere de destino nos campos Caractere de origem e Caractere substituto, respectivamente. Por exemplo, para substituir a letra "a" pela letra "e", especifique 0061 e 0065 respectivamente. Nota informativa Para excluir o caractere de origem especificado, insira 0 na coluna Caractere substituto. Repita as etapas 1 a 2 para substituir ou excluir caracteres adicionais.
Editar o caractere de origem ou destino especificado	Clique em no final da linha e selecione Editar.
Excluir entradas da tabela	Clique em no final da linha e selecione Excluir.

Substituindo ou excluindo caracteres de origem não compatíveis com o conjunto de caracteres selecionado

Use a tabela Caracteres de origem não compatíveis com o conjunto de caracteres para definir um único caractere de substituição para todos os caracteres não compatíveis com o conjunto de caracteres selecionado.

Ações de substituição de caracteres não compatíveis
Até	Faça isto
Defina ou edite uma ação de substituição.	Selecione um conjunto de caracteres na lista suspensa Conjunto de caracteres da tabela. Quaisquer caracteres não compatíveis com o conjunto de caracteres selecionado serão substituídos no destino pelo caractere especificado na etapa 2 abaixo. Na coluna Caractere substituto, clique em qualquer lugar da coluna e especifique o caractere de substituição. Por exemplo, para substituir todos os caracteres não compatíveis pela letra "a", insira 0061. Nota informativa Para excluir todos os caracteres não compatíveis, insira 0.
Desabilite a ação de substituição.	Selecione a entrada em branco na lista suspensa Conjunto de caracteres.

Mais opções

Essas opções não são expostas na UI, pois são relevantes apenas para versões ou ambientes específicos. Consequentemente, não as defina, a menos que seja explicitamente instruído a fazê-lo pelo Suporte da Qlik ou na documentação do produto.

Para definir uma opção, basta copiá-la no campo Adicionar nome do recurso e clicar em Adicionar. Em seguida, defina o valor ou habilite a opção de acordo com as instruções que você recebeu.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!

Deixe seu feedback aqui