Registrando dados que já estão na plataforma de dados

Você pode registrar dados que já existem na plataforma de dados para selecionar e transformar dados e criar datamarts. Isso permite que você use dados integrados a outras ferramentas além do Qlik Talend Data Integration, por exemplo, Qlik Replicate, ou Stitch.

Quando você registra dados, duas tarefas de dados são criadas.

Dados registrados

O registro dos dados envolve a criação de exibições para preparar os dados para estarem prontos para a criação de conjuntos de dados.
Armazenamento

Isso envolve gerar e armazenar conjuntos de dados com base nos dados registrados.

Armazenando conjuntos de dados

Depois de registrar os dados, você pode usar os conjuntos de dados gerados de várias maneiras.

Você pode usar os conjuntos de dados em um aplicativo de análise.
Você pode criar transformações.
Você pode criar um datamart.

Registrar dados

Você pode registrar dados que existem no armazenamento de dados em nuvem definido no projeto. Os conjuntos de dados gerados serão armazenados no mesmo armazém de dados na nuvem.

Para obter mais informações sobre projetos, consulte Criando um pipeline de dados.

Clique em Criar e, em seguida, em Registrar dados em um projeto.
Adicione Nome e Descrição para a tarefa de dados.

Clique em Avançar.
Selecione os dados para registrar.

Selecionando dados para incluir

Clique em Avançar.

Configurações é exibido.
Selecione como os dados são atualizados em Atualizar método.

Selecione Incremental usando marca d'água alta se os dados forem replicados pelo Qlik Replicate ou Stitch.
- Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando um padrão de marca d'água alta. Este é o método sugerido se os dados forem replicados pelo Qlik Replicate (com a opção Carregamento total e armazenamento de alterações) ativada ou pelo Stitch.
  
  Para obter mais informações, consulte Método de atualização.
- Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.
Visualize as duas tarefas de dados criadas em Resumo e renomeie-as, se preferir.

Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados na tarefa de dados de armazenamento. Como um esquema só pode ser associado a uma tarefa, considere usar nomes exclusivos para evitar conflitos com tarefas de dados em outros projetos usando a mesma plataforma de dados.
Selecione se deseja abrir a tarefa de dados registrados ou retornar ao projeto.

Quando estiver pronto, clique em Concluir.

As duas tarefas de dados agora são criadas. Para começar a replicar dados, você precisa:

Prepare a tarefa de dados registrados.

Clique em Preparar na tarefa de dados.

Quando artefatos tiverem sido criados, o status da tarefa de dados será Registrada.
Preparar e executar a tarefa de dados de armazenamento.

Para obter mais informações, consulte Armazenando conjuntos de dados

Selecionando dados para incluir

Ao selecionar dados para incluir, você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.

Use % como curinga para definir um critério de seleção para esquemas e tabelas.

%.% define todas as tabelas em todos os esquemas.
Public.% define todas as tabelas no esquema Público.

Critérios de seleção fornece uma visualização com base em suas seleções.

Agora você pode:

Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.

Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.

Você pode ver a regra em Regras de seleção.
Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.

Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.

As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.

Atualizando metadados

Você pode atualizar os metadados na tarefa para alinhá-los com as alterações nos metadados da origem na visualização Design de uma tarefa. Para aplicativos SaaS que usam o Metadata Manager, o Metadata Manager deve ser atualizado antes de você poder atualizar os metadados na tarefa de dados.

Essa operação afeta somente tabelas na exibição Design de uma tarefa.

Você pode:
- Clique em ... e em Atualizar metadados para atualizar os metadados de todos os conjuntos de dados na tarefa.
- Clique em ... em um conjunto de dados em Conjuntos de dados e, em seguida, em Atualizar metadados para atualizar os metadados de um único conjunto de dados.
Você pode visualizar o status da atualização de metadados em Atualizar metadados na parte inferior da tela. Você pode ver quando os metadados foram atualizados pela última vez passando o cursor sobre .
Prepare a tarefa de dados para aplicar as alterações.

Depois de preparar a tarefa de dados e as alterações serem aplicadas, elas serão removidas de Atualizar metadados.

Você deve preparar tarefas de armazenamento que consumam essa tarefa para propagar as alterações.

Se uma coluna for removida, uma transformação com valores nulos será adicionada para garantir que o armazenamento não perca dados históricos.

Limitações para atualização de metadados

Uma renomeação com uma coluna descartada antes dessa, no mesmo intervalo de tempo, será convertida para a renomeação da coluna descartada se elas tiverem o mesmo tipo e comprimento de dados.

Exemplo:

Antes: a b c d

Depois: a c1 d

Neste exemplo, b foi descartada, e c foi renomeada como c1. b e c têm o mesmo tipo e comprimento de dados.

Isso será identificado como uma renomeação de b para c1 e um descarte de c.
A renomeação da última coluna não é reconhecida, mesmo que a última coluna tenha sido descartada e a anterior tenha sido renomeada.

Exemplo:

Antes: a b c d

Depos: a b c1

Neste exemplo, d foi descartada e c foi renomeada como c1.

Isso será identificado como um descarte de c e d e uma adição de c1.
Presume-se que novas colunas sejam adicionadas no final. Se forem adicionadas colunas no meio com o mesmo tipo de dados que a coluna seguinte, elas poderão ser interpretadas como uma ação de descarte e renomeação.

Configurações de dados registrados

Você pode definir propriedades para a tarefa de dados registrados.

Clique em Configurações.

Configurações gerais

Banco de dados

Banco de dados a ser usado no destino.
Esquema de tarefa

Você pode alterar o nome do esquema da tarefa de dados.
Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.

Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.

Método de atualização

Detecção de alteração

Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.
Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando o método de marca d'água alta.

Esta opção requer que todas as tabelas tenham uma chave primária definida. Você pode definir uma chave primária manualmente na exibição Conjuntos de dados para tabelas que não possuem uma chave primária.

Configurações de carga incremental

Essas configurações estão disponíveis quando Incremental usando marca d'água alta é selecionado.

Se os dados forem replicados por uma tarefa do Qlik Replicate com carregamento total e alterações de armazenamento, defina Configurações de carga incremental como Configurações do Qlik Replicate.
Se os dados forem replicados por um pipeline de dados do Stitch e suas tabelas de origem tiverem uma chave primária definida, defina as Configurações de carregamento incremental como Configurações padrão do Stitch.
Caso contrário, defina as Configurações de carregamento incremental como Personalizado e defina você mesmo as configurações.

Configurações de carga incremental

Configuração	Personalizado	Configurações do Qlik Replicate	Configurações padrão do Stitch
Alterar tabelas	Se as alterações estiverem na mesma tabela, selecione As alterações estão na mesma tabela. Caso contrário, desmarque As alterações estão na mesma tabela e especifique um padrão de tabela de alterações em Padrão de tabela de alterações.	${SOURCE_TABLE_NAME}__ct table	As alterações estão dentro da mesma tabela
Coluna de marca d'água	Defina o nome da coluna de marca d'água em Nome.	header__change_seq	_SDC_BATCHED_AT
Coluna "Data inicial"	Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada. Se você selecionar a coluna "Data inicial" selecionada, deverá definir um padrão "Data inicial".	header__timestamp	_SDC_BATCHED_AT Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada.
Exclusões reversíveis	Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível Exemplo: ${is_deleted} = 1	${header__change_oper} = 'D'	Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível Exemplo: ${is_deleted} = 1
Imagem anterior	Você pode filtrar os registros da imagem anterior nas alterações das tabelas de alterações selecionando Antes da imagem e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a linha contiver a imagem antes da atualização. Exemplo: ${header__change_oper} = 'B'	${header__change_oper} = 'B'	Não há registros de imagens anteriores nos dados.

Configurações do catálogo

Publicar no catálogo

Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.

Para obter mais informações sobre o Catálogo, consulte Compreendendo seus dados com ferramentas de catálogo.

Configuração recomendada do Qlik Replicate

Essas configurações de tarefa do Qlik Replicate são recomendadas ao registrar dados que são replicados usando uma tarefa do Qlik Replicate que armazena alterações.

A tarefa do Qlik Replicate deve ser configurada com as opções Carregamento total e Armazenar alterações.
Em Armazenar configurações de alterações > Tabelas de alterações, certifique-se de que as seguintes colunas da tabela de alterações sejam incluídas, usando seus nomes padrão:
- [header__]change_seq
- [header__]change_oper
- [header__] timestamp
Em Armazenar configurações de alterações > Tabelas de alterações, defina Na ATUALIZAÇÃO como Armazenar após imagem apenas.

Isso reduz o espaço para cada atualização, pois a imagem anterior não está incluída. Use esta opção se não planeja usar a imagem anterior.
Em Armazenar configurações de alterações > Tabelas de alterações, defina Sufixo como o valor padrão __ct.
Não aplique as seguintes transformações globais:
- Renomear Tabela de Alterações
- Esquema de Renomear Tabela de Alterações
Se uma chave primária em uma tabela de origem puder ser atualizada, habilite DELETE e INSERT ao atualizar uma opção de coluna de chave primária no Ajuste de processamento de alterações.

O histórico do registro antigo não será preservado no novo registro.

Nota informativaEsta opção é compatível a partir do Qlik Replicate November 2022.

Operações na tarefa de dados registrados

Você pode realizar as seguintes operações em uma tarefa de dados registrados no menu de tarefas.

Abrir

Isso abre a tarefa de dados. É possível visualizar a estrutura da tabela e os detalhes sobre a tarefa de dados.
Editar

Você pode editar o nome e a descrição da tarefa e adicionar tags.
Excluir

Você pode excluir a tarefa de dados.

Os dados de origem não são excluídos.
Sincronizar conjuntos de dados
Isso sincroniza as alterações de design que não podem ser ajustadas automaticamente.
Recriar tabelas

Isso recria os conjuntos de dados da origem.

Nota informativaSe houver problemas com tabelas individuais, é recomendável tentar primeiro recarregar as tabelas em vez de recriá-las. A recriação de tabelas pode causar perda de dados históricos. Se houver alterações significativas, você também deverá preparar tarefas de dados downstream que consomem os dados recriados.
Armazenar dados

Você pode criar uma tarefa de armazenamento de dados que usa dados dessa tarefa de dados iniciais.

Considerações de histórico ao definir uma coluna "Data de início"

Se os dados históricos estiverem habilitados em uma tarefa downstream e você usar uma coluna "Data de início", a data retroativa não será compatível. Isso significa que, se um lote de alterações contiver uma versão mais antiga de um registro que não existe no armazenamento, o lote de alterações também deverá incluir todas as versões mais recentes do registro. Se as versões mais recentes não forem incluídas, elas serão excluídas.

Nesses exemplos, o armazenamento contém estes registros desde o início:

Data de início	Nome	Cidade
2/out/2023	Joe	Nova York
3/out/2023	Joe	Londres

Exemplo 1:

Se você inserir o seguinte lote de alterações:

Data de início	Nome	Cidade
4/out/2023	Joe	Paris

O resultado no armazenamento será, conforme esperado:

Data de início	Nome	Cidade
2/out/2023	Joe	Nova York
3/out/2023	Joe	Londres
4/out/2023	Joe	Paris

Exemplo 2:

Mas, se você inserir o seguinte registro mais antigo em um lote de alterações:

Data de início	Nome	Cidade
1/out/2023	Joe	Berlim

Isso resulta na remoção dos registros mais recentes do armazenamento:

Data de início	Nome	Cidade
1/out/2023	Joe	Berlim

Exemplo 3:

Para manter o histórico, o lote de alterações deve incluir os registros mais recentes:

Data de início	Nome	Cidade
1/out/2023	Joe	Berlim
2/out/2023	Joe	Nova York
3/out/2023	Joe	Londres

Isso garantirá que o histórico também seja mantido no armazenamento:

Data de início	Nome	Cidade
1/out/2023	Joe	Berlim
2/out/2023	Joe	Nova York
3/out/2023	Joe	Londres

Considerações

Não use a opção de histórico na replicação do Stitch. Use as opções para manter os dados históricos no Qlik Talend Data Integration.

Considerações sobre capacidade de dados

Se uma tabela registrada não tiver chave primária, um recarregamento total será executado a cada execução. Isso será contabilizado em sua cota de capacidade de dados registrada mensalmente. Isso ocorre porque o armazenamento precisará comparar todos os registros para encontrar alterações.
A capacidade de dados para dados registrados é contada no armazenamento. Isso significa que uma exclusão nos dados registrados é convertida em uma inserção ou atualização do armazenamento (uma exclusão reversível) e contada na capacidade de dados.
Exclusões reversíveis, inserções e atualizações serão contadas duas vezes para a capacidade de dados se uma tabela de dados registrados for usada em duas tarefas de armazenamento de dados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!

Deixe seu feedback aqui