Ir para conteúdo principal Pular para conteúdo complementar

Registrando dados que já estão na plataforma de dados

Você pode registrar dados que já existem na plataforma de dados para selecionar e transformar dados e criar datamarts. Isso permite que você use dados integrados a outras ferramentas além do Qlik Talend Data Integration, por exemplo, Qlik Replicate ou Stitch.

Quando você registra dados, duas tarefas de dados são criadas.

  • Dados registrados

    O registro dos dados envolve a criação de exibições para preparar os dados para estarem prontos para a criação de conjuntos de dados.

  • Armazenamento

    Isso envolve gerar e armazenar conjuntos de dados com base nos dados registrados.

    Armazenando conjuntos de dados

Depois de registrar os dados, você pode usar os conjuntos de dados gerados de várias maneiras.

  • Você pode usar os conjuntos de dados em um aplicativo de análise.

  • Você pode criar transformações.

  • Você pode criar um datamart.

Registrar dados

Você pode registrar dados que existem no armazenamento de dados em nuvem definido no projeto. Os conjuntos de dados gerados serão armazenados no mesmo armazém de dados na nuvem.

Para obter mais informações sobre projetos, consulte Criando um pipeline de dados.

  1. Clique em Adicionar novo e, em seguida, em Registrar dados em um projeto.

  2. Adicione Nome e Descrição para a tarefa de dados.

    Clique em Avançar.

  3. Selecione os dados para registrar.

    Selecionando dados para incluir

    Clique em Avançar.

    Configurações é exibido.

  4. Selecione como os dados são atualizados em Atualizar método.

    Selecione Incremental usando marca d'água alta se os dados forem replicados pelo Qlik Replicate ou pelo Stitch.

    • Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando um padrão de marca d'água alta. Este é o método sugerido se os dados forem replicados pelo Qlik Replicate (com a opção Carregamento total e armazenamento de alterações) ativada ou pelo .

      Para obter mais informações, consulte Método de atualização.

    • Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.

  5. Visualize as duas tarefas de dados criadas em Resumo e renomeie-as, se preferir.

    Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados na tarefa de dados de armazenamento. Como um esquema só pode ser associado a uma tarefa, considere usar nomes exclusivos para evitar conflitos com tarefas de dados em outros projetos usando a mesma plataforma de dados.
  6. Selecione se deseja abrir a tarefa de dados registrados ou retornar ao projeto.

    Quando estiver pronto, clique em Concluir.

As duas tarefas de dados agora são criadas. Para começar a replicar dados, você precisa:

  • Prepare a tarefa de dados registrados.

    Clique em Preparar na tarefa de dados.

    Quando artefatos tiverem sido criados, o status da tarefa de dados será Registrada.

  • Preparar e executar a tarefa de dados de armazenamento.

    Para obter mais informações, consulte Armazenando conjuntos de dados

Selecionando dados para incluir

Ao selecionar dados para incluir, você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.

Use % como curinga para definir um critério de seleção para esquemas e tabelas.

  • %.% define todas as tabelas em todos os esquemas.

  • Public.% define todas as tabelas no esquema Público.

Critérios de seleção fornece uma visualização com base em suas seleções.

Agora você pode:

  • Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.

    Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.

    Você pode ver a regra em Regras de seleção.

  • Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.

    Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.

As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.

Atualizando metadados

Você pode atualizar os metadados na tarefa para alinhá-los com as alterações nos metadados da origem na visualização Design de uma tarefa. Para aplicativos SaaS que usam o Metadata Manager, o Metadata Manager deve ser atualizado antes de você poder atualizar os metadados na tarefa de dados.

Nota informativaEssa operação afeta somente tabelas na exibição Design de uma tarefa.
  1. Você pode:

    • Clique em ... e em Atualizar metadados para atualizar os metadados de todos os conjuntos de dados na tarefa.

    • Clique em ... em um conjunto de dados em Conjuntos de dados e, em seguida, em Atualizar metadados para atualizar os metadados de um único conjunto de dados.

    Você pode visualizar o status da atualização de metadados em Atualizar metadados na parte inferior da tela. Você pode ver quando os metadados foram atualizados pela última vez passando o cursor sobre Botão Informações.

  2. Prepare a tarefa de dados para aplicar as alterações.

    Depois de preparar a tarefa de dados e as alterações serem aplicadas, elas serão removidas de Atualizar metadados.

Você deve preparar tarefas de armazenamento que consumam essa tarefa para propagar as alterações.

Se uma coluna for removida, uma transformação com valores nulos será adicionada para garantir que o armazenamento não perca dados históricos.

Limitações

  • Uma renomeação com uma coluna descartada antes dessa, no mesmo intervalo de tempo, será convertida para a renomeação da coluna descartada se elas tiverem o mesmo tipo e comprimento de dados.

    Exemplo:  

    Antes: a b c d

    Depois: a c1 d

    Neste exemplo, b foi descartada, e c foi renomeada como c1. b e c têm o mesmo tipo e comprimento de dados.

    Isso será identificado como uma renomeação de b para c1 e um descarte de c.

  • A renomeação da última coluna não é reconhecida, mesmo que a última coluna tenha sido descartada e a anterior tenha sido renomeada.

    Exemplo:  

    Antes: a b c d

    Depos: a b c1

    Neste exemplo, d foi descartada e c foi renomeada como c1.

    Isso será identificado como um descarte de c e d e uma adição de c1.

  • Presume-se que novas colunas sejam adicionadas no final. Se forem adicionadas colunas no meio com o mesmo tipo de dados que a coluna seguinte, elas poderão ser interpretadas como uma ação de descarte e renomeação.

Configurações de dados registrados

Você pode definir propriedades para a tarefa de dados registrados.

  • Clique em Configurações.

Configurações gerais

  • Banco de dados

    Banco de dados a ser usado no destino.

  • Esquema de tarefa

    Você pode alterar o nome do esquema da tarefa de dados.

  • Prefixo para todas as tabelas e visualizações

    Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.

    Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.

Método de atualização

Detecção de alteração

  • Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.

  • Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando o método de marca d'água alta.

    Esta opção requer que todas as tabelas tenham uma chave primária definida. Você pode definir uma chave primária manualmente na exibição Conjuntos de dados para tabelas que não possuem uma chave primária.

Configurações de carga incremental

Essas configurações estão disponíveis quando Incremental usando marca d'água alta é selecionado.

  • Se os dados forem replicados por uma tarefa do Qlik Replicate com carregamento total e alterações de armazenamento, defina Configurações de carga incremental como Configurações do Qlik Replicate.

  • Se os dados forem replicados por um pipeline de dados do Stitch e suas tabelas de origem tiverem uma chave primária definida, defina as Configurações de carregamento incremental como Configurações padrão do Stitch.

  • Caso contrário, defina as Configurações de carregamento incremental como Personalizado e defina você mesmo as configurações.

Configurações de carga incremental
Configuração Personalizado Configurações do Qlik Replicate Configurações padrão do Stitch
Alterar tabelas

Se as alterações estiverem na mesma tabela, selecione As alterações estão na mesma tabela.

Caso contrário, desmarque As alterações estão na mesma tabela e especifique um padrão de tabela de alterações em Padrão de tabela de alterações.

${SOURCE_TABLE_NAME}__ct table As alterações estão dentro da mesma tabela
Coluna de marca d'água Defina o nome da coluna de marca d'água em Nome. header__change_seq _SDC_BATCHED_AT
Coluna "Data inicial"

Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada.

Se você selecionar a coluna "Data inicial" selecionada, deverá definir um padrão "Data inicial".

header__timestamp _SDC_BATCHED_AT

Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada.

Exclusões reversíveis

Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação.

A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível

Exemplo: ${is_deleted} = 1

${header__change_oper} = 'D'

Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação.

A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível

Exemplo: ${is_deleted} = 1

Imagem anterior

Você pode filtrar os registros da imagem anterior nas alterações das tabelas de alterações selecionando Antes da imagem e definindo uma expressão de indicação.

A expressão de indicação deve ser avaliada como True se a linha contiver a imagem antes da atualização.

Exemplo: ${header__change_oper} = 'B'

${header__change_oper} = 'B' Não há registros de imagens anteriores nos dados.

Configurações do catálogo

  • Publicar no catálogo

    Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.

Para obter mais informações sobre o Catálogo, consulte Compreendendo seus dados com ferramentas de catálogo.

Configuração recomendada do Qlik Replicate

Essas configurações de tarefa do Qlik Replicate são recomendadas ao registrar dados que são replicados usando uma tarefa do Qlik Replicate que armazena alterações.

  • A tarefa do Qlik Replicate deve ser configurada com as opções Carregamento total e Armazenar alterações.

  • Em Armazenar configurações de alterações > Tabelas de alterações, certifique-se de que as seguintes colunas da tabela de alterações sejam incluídas, usando seus nomes padrão:

    • [header__]change_seq

    • [header__]change_oper

    • [header__] timestamp

  • Em Armazenar configurações de alterações > Tabelas de alterações, defina Na ATUALIZAÇÃO como Armazenar após imagem apenas.

    Isso reduz o espaço para cada atualização, pois a imagem anterior não está incluída. Use esta opção se não planeja usar a imagem anterior.

  • Em Armazenar configurações de alterações > Tabelas de alterações, defina Sufixo como o valor padrão __ct.

  • Não aplique as seguintes transformações globais:

    • Renomear Tabela de Alterações

    • Esquema de Renomear Tabela de Alterações

  • Se uma chave primária em uma tabela de origem puder ser atualizada, habilite DELETE e INSERT ao atualizar uma opção de coluna de chave primária no Ajuste de processamento de alterações.

    O histórico do registro antigo não será preservado no novo registro.

    Nota informativaEsta opção é compatível a partir do Qlik Replicate November 2022.

Operações na tarefa de dados registrados

Você pode realizar as seguintes operações em uma tarefa de dados registrados no menu de tarefas.

  • Abrir

    Isso abre a tarefa de dados. É possível visualizar a estrutura da tabela e os detalhes sobre a tarefa de dados.

  • Editar

    Você pode editar o nome e a descrição da tarefa e adicionar tags.

  • Excluir

    Você pode excluir a tarefa de dados.

    Os dados de origem não são excluídos.

  • Sincronizar conjuntos de dados

    Isso sincroniza as alterações de design que não podem ser ajustadas automaticamente.

  • Recriar tabelas

    Isso recria os conjuntos de dados da origem.

  • Armazenar dados

    Você pode criar uma tarefa de armazenamento de dados que usa dados dessa tarefa de dados iniciais.

Considerações de histórico ao definir uma coluna "Data de início"

Se os dados históricos estiverem habilitados em uma tarefa downstream e você usar uma coluna "Data de início", a data retroativa não será compatível. Isso significa que, se um lote de alterações contiver uma versão mais antiga de um registro que não existe no armazenamento, o lote de alterações também deverá incluir todas as versões mais recentes do registro. Se as versões mais recentes não forem incluídas, elas serão excluídas.

Nesses exemplos, o armazenamento contém estes registros desde o início:

Data de início Nome Cidade
2/out/2023 Joe Nova York
3/out/2023 Joe Londres

Exemplo 1:  

Se você inserir o seguinte lote de alterações:

Data de início Nome Cidade
4/out/2023 Joe Paris

O resultado no armazenamento será, conforme esperado:

Data de início Nome Cidade
2/out/2023 Joe Nova York
3/out/2023 Joe Londres
4/out/2023 Joe Paris

Exemplo 2:  

Mas, se você inserir o seguinte registro mais antigo em um lote de alterações:

Data de início Nome Cidade
1/out/2023 Joe Berlim

Isso resulta na remoção dos registros mais recentes do armazenamento:

Data de início Nome Cidade
1/out/2023 Joe Berlim

Exemplo 3:  

Para manter o histórico, o lote de alterações deve incluir os registros mais recentes:

Data de início Nome Cidade
1/out/2023 Joe Berlim
2/out/2023 Joe Nova York
3/out/2023 Joe Londres

Isso garantirá que o histórico também seja mantido no armazenamento:

Data de início Nome Cidade
1/out/2023 Joe Berlim
2/out/2023 Joe Nova York
3/out/2023 Joe Londres

Considerações

  • Não use a opção de histórico na replicação do Stitch. Use as opções para manter os dados históricos no Qlik Talend Data Integration.

Considerações sobre capacidade de dados

  • Se uma tabela registrada não tiver chave primária, um recarregamento total será executado a cada execução. Isso será contabilizado em sua cota de capacidade de dados registrada mensalmente. Isso ocorre porque o armazenamento precisará comparar todos os registros para encontrar alterações.

  • A capacidade de dados para dados registrados é contada no armazenamento. Isso significa que uma exclusão nos dados registrados é convertida em uma inserção ou atualização do armazenamento (uma exclusão reversível) e contada na capacidade de dados.

  • Exclusões reversíveis, inserções e atualizações serão contadas duas vezes para a capacidade de dados se uma tabela de dados registrados for usada em duas tarefas de armazenamento de dados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!