Configurações para destinos de armazenamento em nuvem
Você pode alterar as configurações padrão de destino do data lake de acordo com suas necessidades.
Geral
Método de atualização
Você pode aterrissar dados em dois modos diferentes. Não é possível alterar o modo depois que a tarefa de aterrisagem do data lake estiver preparada.
-
Captura de dados de alterações (CDC) As tarefas de preparação de data lake começam com um carregamento total (durante o qual todas as tabelas selecionadas são preparadas). Os dados preparados então permanecem atualizados usando a tecnologia de CDC (Captura de dados de alterações).
Nota informativaNão há suporte para a CDC (Captura de dados de alterações) de operações DDL.Ao trabalhar com o Data Movement gateway, as alterações são capturadas da fonte quase em tempo real. Ao trabalhar sem o Data Movement gateway, as alterações são capturadas de acordo com as configurações do agendador. Para obter mais informações, consulte Agendando tarefas ao trabalhar sem o Data Movement gateway.
- Recarregamento: Faz um carregamento total dos dados das tabelas de origem selecionadas na plataforma de destino e cria as tabelas de destino, se necessário. O carregamento total ocorre automaticamente quando a tarefa é iniciada, mas também pode ser realizado manualmente ou agendado para ocorrer periodicamente, se necessário.
Pasta para uso
Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:
- Pasta padrão: O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
- Pasta raiz: os arquivos serão gravados diretamente no bucket.
-
Pasta: insira o nome da pasta. A pasta será criada durante a tarefa de preparo do data lake se ainda não existir.
Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
Particionamento de dados de alteração
Em uma tarefa de aterrisagem padrão, as alterações são aterrisadas ao destino sem nenhuma ordem específica. O particionamento de dados de alterações permite o processamento de dados de alterações de muitas tabelas de maneira consistente. Você pode definir a duração das partições, bem como o tempo base de particionamento, garantindo assim a consistência geral dos dados particionados (ou seja, nenhuma transação parcial, nenhum cabeçalho de pedido sem linhas de pedidos, e assim por diante).
As informações sobre as partições são registradas na tabela de controle attrep_cdc_partitions no banco de dados de destino. Essas informações podem ser usadas para identificar dados particionados que precisam ser processados posteriormente.
As opções de particionamento são as seguintes:
-
Particionar a cada - especifique a duração (em horas e minutos) de cada partição.
Nota informativaRecomenda-se especificar uma duração de partição superior a uma hora. Embora especificar um comprimento de partição inferior a uma hora possa melhorar a latência, a criação de muitas partições no destino também pode impactar o desempenho (de destino) (especialmente em sistemas com grandes volumes de alterações).
Se você retomar uma tarefa ANTES do momento em que a última partição foi criada, a tarefa de aterrisagem do data lake será gravada em uma partição que já foi fechada.
- Tempo base de particionamento - as partições são criadas durante um período de 24 horas, que é calculado de acordo com o "Tempo base de particionamento" especificado no banco de dados de origem no horário UTC. Por exemplo, um intervalo de partição de 8 horas com um tempo de "Tempo base de particionamento" de 02:00 criará as seguintes partições: 02:00-10:00, 10:00-18:00, 18:00-02:00, mas não necessariamente nesta ordem. Por exemplo, se uma tarefa começou às 01:00, então o período da primeira partição será 18:00-02:00. Além disso, se uma tarefa foi iniciada no meio de uma partição (por exemplo, às 04:00), seus dados de alterações serão inseridos na partição 02:00-10:00, mesmo que nenhuma alteração tenha sido capturada antes das 04:00.
Upload de dados
Atributos do arquivo
Formato
Você pode optar por criar os arquivos de destino no formato CSV, JSON ou Parquet.
Em um arquivo JSON, cada registro é representado por uma única linha, como no exemplo a seguir:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
Consulte também: Propriedades de content-type e content-encoding
- Se você escolher o formato JSON ou Parquet , os seguintes campos ficarão ocultos, pois são relevantes apenas para o formato CSV: Delimitador de campo, Delimitador de registro, Valor nulo, Caractere de citação, Caractere de escape de citação e Adicionar cabeçalho de metadados.
- Os campos a seguir são relevantes apenas para o formato Parquet: Versão Parquet, Unidade de carimbo de data/hora Parquet e Tamanho máximo de LOB (KB) Parquet.
Para obter informações sobre mapeamentos de tipos de dados ao usar o formato Parquet e limitações, consulte Mapping from Qlik Cloud data types to Parquet
Delimitador de campo
O delimitador que será usado para separar campos (colunas) nos arquivos de destino. O padrão é uma vírgula.
Exemplo de uso de vírgula como delimitador:
"mike","male"
Delimitadores podem ser caracteres padrão ou um valor hexadecimal (hex). Observe que o prefixo "0x
" deve ser usado para denotar um delimitador hexadecimal (por exemplo, 0x01 = SOH
). Nos campos Delimitador de campo, Delimitador de registro e Valor nulo, o delimitador pode consistir em valores hexadecimais concatenados (por exemplo, 0x0102
= SOHSTX
), enquanto nos campos Caractere de citação e Caractere de escape de citação, ele só pode ser um único valor hexadecimal.
O número hexadecimal 0x00
não é compatível (ou seja, apenas 0x01
-0xFF
são aceitos).
Valor nulo
A string que será usada para indicar um valor nulo nos arquivos de destino.
Exemplo (em que \n é o delimitador de registro e @ é o valor nulo):
Delimitador de registro
O delimitador que será usado para separar registros (linhas) nos arquivos de destino. O padrão é uma nova linha (\n
).
Exemplo:
Caractere de citação
O caractere que será usado no início e no final de uma coluna de texto. O padrão é o caractere de aspas duplas ("). Quando uma coluna que contém delimitadores de coluna é colocada entre aspas duplas, os caracteres delimitadores de coluna são interpretados como dados reais, e não como delimitadores de coluna.
Exemplo (em que @ é o caractere de aspa):
Caractere de escape de citação
O caractere usado para escapar de um caractere de aspas nos dados reais. O padrão é o caractere de aspas duplas (").
Exemplo (onde " é o caractere de aspas e \ é o caractere de escape):
Versão Parquet
Selecione qual versão usar de acordo com qual versão a plataforma de destino suporta. Observe que o Parquet versão 1.0 oferece suporte apenas à unidade de carimbo de data/hora MICRO, enquanto o Parquet versão 2.6 oferece suporte a unidades de carimbo de data/hora MICRO e NANO .
Unidade de carimbo de data/hora Parquet
Quando a versão do Parquet for definida como 2.6, escolha MICRO ou NANO. Quando a versão Parquet está definida como 1.0, apenas MICRO tem suporte.
Tamanho máximo de LOB em parquet (KB)
O tamanho máximo padrão do LOB é 64 KB e o valor máximo que você pode inserir neste campo é 10.000 KB. O tratamento de colunas LOB requer mais recursos, o que, por sua vez, afeta o desempenho. Aumente esse valor somente se você estiver replicando dados LOB maiores que 64 KB e precisar que todos os dados LOB sejam replicados para o destino.
Tamanho máximo do arquivo
O tamanho máximo que um arquivo pode atingir antes de ser fechado (e opcionalmente compactado).
O tamanho máximo que um arquivo pode atingir antes de ser fechado. Arquivos menores podem ser carregados mais rapidamente (dependendo da rede) e melhorar o desempenho quando usados em conjunto com a opção de execução paralela. No entanto, geralmente é considerado uma má prática sobrecarregar o banco de dados com arquivos pequenos.
Compactar arquivos usando
Escolha uma das opções de compactação para compactar os arquivos de destino ou NONE (o padrão) para deixá-los descompactados. Observe que as opções de compactação disponíveis são determinadas pelo formato de arquivo selecionado.
Adicionar cabeçalho de metadados
Opcionalmente, você pode adicionar uma linha de cabeçalho aos arquivos de dados. A linha do cabeçalho pode conter os nomes das colunas de origem e/ou os tipos de dados intermediários (como Qlik Talend Data Integration).
Exemplo de um arquivo de destino com uma linha de cabeçalho quando ambas as opções Com nomes de colunas e Com tipos de dados estão selecionadas:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Alterar processamento
Esta seção descreve configurações condicionais no Processamento de alterações.
Aplicar/armazenar alterações quando
- O tamanho do arquivo atinge: especifique o tamanho máximo dos dados de alterações a serem acumulados antes de carregar o arquivo no alvo.
- O tempo decorrido atinge: o tempo decorrido atinge x.
Arquivos de metadados
Quando a opção Criar arquivos de metadados na pasta de destino estiver selecionada, para cada arquivo de dados, um arquivo de metadados correspondente com extensão .dfm será criado na pasta de destino especificada. Os arquivos de metadados fornecem informações adicionais sobre a tarefa/dados, como o tipo de conector de origem, o nome da tabela de origem, o número de registros no arquivo de dados e assim por diante.
Para uma descrição completa do arquivo de metadados, bem como possíveis usos, consulte Descrição do arquivo de metadados
Metadados
Colunas LOB
-
Incluir colunas LOB e limitar o tamanho da coluna a (KB):
Você pode optar por incluir colunas LOB na tarefa e definir o tamanho máximo do LOB. LOBs maiores que o tamanho máximo serão truncados.
Tabelas de controle
Selecione qual das seguintes tabelas de controle você deseja criar na plataforma de destino:
- Status da replicação: Fornece detalhes sobre a tarefa de destino atual, incluindo status da tarefa, quantidade de memória consumida pela tarefa, número de alterações ainda não aplicadas à plataforma de dados e a posição na fonte de dados da qual os dados estão sendo lidos no momento.
- Tabelas suspendidas: Fornece uma lista de tabelas suspensas e o motivo pelo qual foram suspensas.
- Histórico de replicação: Fornece informações sobre o histórico de tarefas, incluindo o número e o volume de registros processados durante uma tarefa de aterrisagem, a latência no final de uma tarefa de CDC e muito mais.
- Partições de dados de alteração: Fornece registros de partições criadas no banco de dados de destino devido ao Particionamento de dados de alteração. Você pode usar essas informações para identificar dados particionados que precisam ser processados posteriormente.
Para uma descrição detalhada de cada uma das Tabelas de Controle, consulte Tabelas de controle
Carregamento total
Ajuste de desempenho
- Número máximo de tabelas para carregar em paralelo: insira o número máximo de tabelas para carregar no destino de uma só vez. O valor padrão é 5.
-
Tempo limite de consistência da transação (segundos): insira o número de segundos para aguardar o fechamento das transações abertas, antes de iniciar a operação Carregamento total. O valor padrão é 600 (10 minutos). O carregamento total começará após o valor do tempo limite ser atingido, mesmo se houver transações ainda abertas.
Nota informativaPara replicar transações que estavam abertas quando o carregamento total foi iniciado, mas que só foram confirmadas depois que o valor do tempo limite foi atingido, é necessário recarregar as tabelas de destino. - Taxa de confirmação durante carregamento total: o número máximo de eventos que podem ser transferidos juntos. O valor padrão é 10.000.
Após a conclusão do carregamento total
Criar chave primária ou exclusiva: selecione esta opção se desejar atrasar a criação da chave primária ou do índice exclusivo na plataforma de dados até que o carregamento total seja concluído.
Para carga inicial
Ao mover dados de uma origem de aplicativo SaaS, você pode definir como executar o carregamento total inicial:
Usar dados em cache |
Esta opção permite usar dados em cache que foram lidos ao gerar metadados com a opção Verificação de dados completa selecionada. Isso cria menos sobrecarga em relação ao uso e cotas da API, pois os dados já são lidos da origem. Quaisquer alterações desde a verificação de dados inicial podem ser selecionadas pelo Change data capture (CDC). |
Carregar dados a partir da fonte |
Esta opção executa um novo carregamento da fonte de dados. Esta opção é útil se:
|
Armazenar processamento de alterações
As colunas do cabeçalho da tabela de alterações fornecem informações sobre a operação de processamento de alterações, como o tipo de operação (por exemplo, INSERT), o tempo de confirmação e assim por diante. Se você não precisar dessas informações, poderá configurar a tarefa de dados para criar as tabelas de alteração sem algumas ou todas as colunas de cabeçalho, reduzindo assim seu espaço no banco de dados de destino. Para fazer isso, desmarque as caixas de seleção das colunas de cabeçalho que você deseja excluir.
Observe que você não pode remover colunas adicionais ou restaurar colunas enquanto uma tarefa estiver em execução. Para alterar sua seleção inicial, primeiro você precisa interromper a tarefa, depois modificar sua seleção e, por fim, recarregar as tabelas de destino.
Quando o Particionamento de dados de alteração é ativado, uma coluna de cabeçalho extra chamada "partition_name" é adicionada às tabelas de alteração e selecionada automaticamente na UI. Como esta coluna é obrigatória, ela não pode ser excluída.
Para obter uma descrição das colunas de cabeçalho, consulte Usando tabelas de alterações.
Tratamento de erros
Erros de dados
O tratamento de erros de dados é compatível apenas com o método de atualização Captura de dados alterados (CDC).
Erros de truncamento de dados
Para erros de truncamento de dados: Selecione o que você deseja que aconteça quando ocorrer um truncamento em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:
- Ignorar: A tarefa continua e o erro é ignorado.
- Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Outros erros de dados
Para outros erros de dados: Selecione o que você deseja que aconteça quando ocorrer um erro em um ou mais registros específicos. Você pode selecionar uma das seguintes situações na lista:
- Ignorar: A tarefa continua e o erro é ignorado.
- Suspender tabela: A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Escalar tratamento de erros de dados
Escalar o tratamento de erros quando outros erros de dados atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de dados não truncados (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.
Ação de escalonamento: Escolha o que deve acontecer quando o tratamento de erros for escalado. Observe que as ações disponíveis dependem da ação selecionada na lista suspensa Para outros erros de dados descrita acima.
-
Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são landed.
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Erros de tabela
Ao encontrar um erro de tabela: Selecione uma das seguintes opções na lista suspensa:
- Suspender tabela (padrão): A tarefa continua, mas os dados da tabela com o registro de erro são movidos para um estado de erro e seus dados não são replicados.
- Parar tarefa: A tarefa é interrompida e é necessária intervenção manual.
Escalar o tratamento de erros quando os erros da tabela atingirem (por tabela): Marque esta caixa de seleção para escalar o tratamento de erros quando o número de erros de tabela (por tabela) atingir o valor especificado. Os valores válidos são de 1 a 10.000.
Ação de escalonamento: A política de escalonamento para erros de tabela é definida como Parar tarefa e não pode ser alterada.
Ambiental
-
Contagem máxima de repetições: Selecione esta opção e especifique o número máximo de tentativas para repetir uma tarefa quando ocorrer um erro ambiental recuperável. Depois que a tarefa for repetida o número especificado de vezes, a tarefa será interrompida e a intervenção manual será necessária.
Para nunca repetir uma tarefa, desmarque a caixa de seleção ou especifique "0".
Para repetir uma tarefa um número infinito de vezes, especifique "-1"
-
Intervalo entre novas tentativas (segundos): Use o contador para selecionar ou digitar o número de segundos que o sistema aguarda entre as tentativas de repetir uma tarefa.
Os valores válidos são de 0 a 2.000.
-
- Aumentar o intervalo de repetição para interrupções longas: Marque esta caixa de seleção para aumentar o intervalo de novas tentativas para interrupções longas. Quando esta opção está habilitada, o intervalo entre cada nova tentativa é duplicado, até que o Intervalo máximo de repetição seja atingido (e continue tentando de acordo com o intervalo máximo especificado).
- Intervalo máximo de repetição (segundos): Use o contador para selecionar ou digitar o número de segundos de espera entre as tentativas de repetir uma tarefa quando a opção Aumentar intervalo de repetição para interrupções longas estiver ativada. Os valores válidos são de 0 a 2.000.
Ajuste do processamento de alterações
Ajuste de descarga transacional
-
Descarregar as transações em andamento para o disco se:
Os dados da transação geralmente são mantidos na memória até que sejam totalmente confirmados na origem ou no destino. No entanto, as transações maiores que a memória alocada ou que não forem confirmadas dentro do limite de tempo especificado serão descarregadas no disco.
- O tamanho total da memória para todas as transações excede (MB): o tamanho máximo que todas as transações podem ocupar na memória antes de serem descarregadas no disco. O valor padrão é 1024.
- A duração da transação excede (segundos): o tempo máximo que cada transação pode permanecer na memória antes de ser descarregada no disco. A duração é calculada a partir do momento em que o Qlik Talend Data Integration começou a capturar a transação. O valor padrão é 60.
Ajuste em lote
-
Número mínimo de alterações por transação: O número mínimo de alterações a serem incluídas em cada transação. O valor padrão é 1000.
Nota informativaAs alterações serão aplicadas ao alvo quando o número de alterações for igual ou superior ao valor Número mínimo de alterações por transação OU quando o valor de Tempo máximo para transações em lote antes da aplicação (segundos) descrito abaixo for atingido - o que ocorrer primeiro. Como a frequência das alterações aplicadas ao destino é controlada por esses dois parâmetros, as alterações nos registros de origem podem não ser refletidas imediatamente nos registros de destino.
- Tempo máximo para transações em lote antes da aplicação (segundos): o tempo máximo para coletar transações em lotes antes de declarar um tempo limite. O valor padrão é 1.
Intervalo
Esta opção está disponível apenas quando:
- Usando Data Movement gateway
- Aterrisando dados de fontes de aplicativos SaaS
- A tarefa é definida com o método de atualização Captura de dados de alteração (CDC)
Ler alterações a cada (minutos)
Defina o intervalo entre a leitura de alterações na origem, em minutos. O intervalo válido é de 1 a 1.440.
Ajuste diverso
- Tamanho do cache de instruções (número de instruções): O número máximo de instruções preparadas a serem armazenadas no servidor para execução posterior (ao aplicar alterações no destino). O padrão é 50. O máximo é 200.
-
DELETE e INSERT ao atualizar uma coluna de chave primária: Esta opção requer que o log suplementar completo esteja ativado no banco de dados de origem.
Evolução do esquema
Substituição de caracteres
Você pode substituir ou excluir caracteres de origem no banco de dados de destino e/ou substituir ou excluir caracteres de origem que não são compatíveis com um conjunto de caracteres selecionado.
-
Todos os caracteres devem ser especificados como pontos de código Unicode.
- A substituição de caracteres também será realizada nas tabelas de controle.
-
Valores inválidos serão indicados por um triângulo vermelho no canto superior direito da célula da tabela. Passar o cursor do mouse sobre o triângulo mostrará a mensagem de erro.
-
Quaisquer transformações globais ou em nível de tabela definidas para a tarefa serão executadas após a conclusão da substituição de caracteres.
-
As ações de substituição definidas na tabela Substituir ou excluir caracteres de origem são executadas antes da ação de substituição definida na tabela Substituir ou excluir caracteres de origem não compatíveis com o conjunto de caracteres selecionado.
- A substituição de caracteres não aceita tipos de dados LOB.
Substituindo ou excluindo caracteres de origem
Use a tabela Substituir ou excluir caracteres de origem para definir substituições para caracteres de origem específicos. Isso pode ser útil, por exemplo, quando a representação Unicode de um caractere é diferente nas plataformas de origem e de destino. Por exemplo, no Linux, o caractere de menos no conjunto de caracteres Shift_JIS é representado como U+2212, mas no Windows é representado como U+FF0D.
Até | Faça isto |
---|---|
Defina ações de substituição. |
|
Editar o caractere de origem ou destino especificado |
Clique em no final da linha e selecione Editar. |
Excluir entradas da tabela |
Clique em no final da linha e selecione Excluir. |
Substituindo ou excluindo caracteres de origem não compatíveis com o conjunto de caracteres selecionado
Use a tabela Caracteres de origem não compatíveis com o conjunto de caracteres para definir um único caractere de substituição para todos os caracteres não compatíveis com o conjunto de caracteres selecionado.
Até | Faça isto |
---|---|
Defina ou edite uma ação de substituição. |
|
Desabilite a ação de substituição. |
Selecione a entrada em branco na lista suspensa Conjunto de caracteres. |
Mais opções
Essas opções não são expostas na UI, pois são relevantes apenas para versões ou ambientes específicos. Consequentemente, não as defina, a menos que seja explicitamente instruído a fazê-lo pelo Suporte da Qlik ou na documentação do produto.
Para definir uma opção, basta copiá-la no campo Adicionar nome do recurso e clicar em Adicionar. Em seguida, defina o valor ou habilite a opção de acordo com as instruções que você recebeu.
Agendando tarefas ao trabalhar sem o Data Movement gateway
O Data Movement gateway não é compatível com uma assinatura do Iniciante do Qlik Talend Cloud e é opcional com outros níveis de assinatura. Ao trabalhar sem o Data Movement gateway, a CDC (captura de dados de alterações) quase em tempo real não é compatível. Você mantém os dados de destino atualizados definindo um intervalo de programação. A programação determina com que frequência os conjuntos de dados de destino serão atualizados com alterações nos conjuntos de dados de origem. Enquanto a programação determina a frequência de atualização, o tipo de conjunto de dados determina o método de atualização. Se os conjuntos de dados de origem forem compatíveis com CDC (Captura de dados de alterações), apenas as alterações nos dados de origem serão replicadas e aplicadas às tabelas de destino correspondentes. Se os conjuntos de dados de origem não forem compatíveis com CDC (por exemplo, Visualizações), as alterações serão aplicadas recarregando todos os dados de origem nas tabelas de destino correspondentes. Se alguns dos conjuntos de dados de origem forem compatíveis com CDC e outros não, duas subtarefas separadas serão criadas (assumindo que o método de atualização Captura de dados de alterações seja selecionadas): um para recarregar os conjuntos de dados que não são compatíveis com CDC e outro para capturar as alterações nos conjuntos de dados que são compatíveis com CDC. Neste caso, para garantir a consistência dos dados, é altamente recomendável definir a mesma programação para ambas as subtarefas.
Para alterar a programação:
-
Abra seu projeto de dados e siga um destes procedimentos:
- Na exibição de tarefas, clique em em uma tarefa de dados e selecione Programação.
- Na exibição do pipeline, clique em em uma tarefa de dados e selecione Programação.
- Abra a tarefa de replicação e clique no botão Programação da barra de ferramentas.
- Altere as configurações de agendamento conforme necessário e clique em OK.