Registrando dados que já estão na plataforma de dados
Você pode registrar dados que já existem na plataforma de dados para selecionar e transformar dados e criar datamarts. Isso permite que você use dados integrados a outras ferramentas além do Qlik Talend Data Integration, por exemplo, Qlik Replicate ou Stitch.
Quando você registra dados, duas tarefas de dados são criadas.
-
Dados registrados
O registro dos dados envolve a criação de exibições para preparar os dados para estarem prontos para a criação de conjuntos de dados.
-
Armazenamento
Isso envolve gerar e armazenar conjuntos de dados com base nos dados registrados.
Depois de registrar os dados, você pode usar os conjuntos de dados gerados de várias maneiras.
-
Você pode usar os conjuntos de dados em um aplicativo de análise.
-
Você pode criar transformações.
-
Você pode criar um datamart.
Registrar dados
Você pode registrar dados que existem no armazenamento de dados em nuvem definido no projeto. Os conjuntos de dados gerados serão armazenados no mesmo armazém de dados na nuvem.
Para obter mais informações sobre projetos, consulte Criando um pipeline de dados.
-
Clique em Adicionar novo e, em seguida, em Registrar dados em um projeto.
-
Adicione Nome e Descrição para a tarefa de dados.
Clique em Avançar.
-
Selecione os dados para registrar.
Selecionando dados para incluir
Clique em Avançar.
Configurações é exibido.
-
Selecione como os dados são atualizados em Atualizar método.
Selecione Incremental usando marca d'água alta se os dados forem replicados pelo Qlik Replicate ou pelo Stitch.
-
Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando um padrão de marca d'água alta. Este é o método sugerido se os dados forem replicados pelo Qlik Replicate (com a opção Carregamento total e armazenamento de alterações) ativada ou pelo .
Para obter mais informações, consulte Método de atualização.
-
Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.
-
-
Visualize as duas tarefas de dados criadas em Resumo e renomeie-as, se preferir.
Nota de dicaOs nomes são usados ao nomear esquemas de banco de dados na tarefa de dados de armazenamento. Como um esquema só pode ser associado a uma tarefa, considere usar nomes exclusivos para evitar conflitos com tarefas de dados em outros projetos usando a mesma plataforma de dados. -
Selecione se deseja abrir a tarefa de dados registrados ou retornar ao projeto.
Quando estiver pronto, clique em Concluir.
As duas tarefas de dados agora são criadas. Para começar a replicar dados, você precisa:
-
Prepare a tarefa de dados registrados.
Clique em Preparar na tarefa de dados.
Quando artefatos tiverem sido criados, o status da tarefa de dados será Registrada.
-
Preparar e executar a tarefa de dados de armazenamento.
Para obter mais informações, consulte Armazenando conjuntos de dados
Selecionando dados para incluir
Ao selecionar dados para incluir, você pode selecionar tabelas ou exibições específicas ou usar regras de seleção para incluir ou excluir grupos de tabelas.
Use % como curinga para definir um critério de seleção para esquemas e tabelas.
-
%.% define todas as tabelas em todos os esquemas.
-
Public.% define todas as tabelas no esquema Público.
Critérios de seleção fornece uma visualização com base em suas seleções.
Agora você pode:
-
Crie uma regra para incluir ou excluir um grupo de tabelas com base nos critérios de seleção.
Clique em Adicionar regra dos critérios de seleção para criar uma regra e selecione Incluir ou Excluir.
Você pode ver a regra em Regras de seleção.
-
Selecione um ou mais conjuntos de dados e clique em Adicionar conjuntos de dados selecionados.
Você pode ver os conjuntos de dados adicionados em Conjuntos de dados explicitamente selecionados.
As regras de seleção se aplicam apenas ao conjunto atual de tabelas e exibições, não a tabelas e exibições que são adicionadas no futuro.
Atualizando metadados
Você pode atualizar os metadados na tarefa para alinhá-los com as alterações nos metadados da origem na visualização Design de uma tarefa. Para aplicativos SaaS que usam o Metadata Manager, o Metadata Manager deve ser atualizado antes de você poder atualizar os metadados na tarefa de dados.
-
Você pode:
-
Clique em ... e em Atualizar metadados para atualizar os metadados de todos os conjuntos de dados na tarefa.
-
Clique em ... em um conjunto de dados em Conjuntos de dados e, em seguida, em Atualizar metadados para atualizar os metadados de um único conjunto de dados.
Você pode visualizar o status da atualização de metadados em Atualizar metadados na parte inferior da tela. Você pode ver quando os metadados foram atualizados pela última vez passando o cursor sobre .
-
-
Prepare a tarefa de dados para aplicar as alterações.
Depois de preparar a tarefa de dados e as alterações serem aplicadas, elas serão removidas de Atualizar metadados.
Você deve preparar tarefas de armazenamento que consumam essa tarefa para propagar as alterações.
Se uma coluna for removida, uma transformação com valores nulos será adicionada para garantir que o armazenamento não perca dados históricos.
Limitações para atualização de metadados
-
Uma renomeação com uma coluna descartada antes dessa, no mesmo intervalo de tempo, será convertida para a renomeação da coluna descartada se elas tiverem o mesmo tipo e comprimento de dados.
Exemplo:
Antes: a b c d
Depois: a c1 d
Neste exemplo, b foi descartada, e c foi renomeada como c1. b e c têm o mesmo tipo e comprimento de dados.
Isso será identificado como uma renomeação de b para c1 e um descarte de c.
-
A renomeação da última coluna não é reconhecida, mesmo que a última coluna tenha sido descartada e a anterior tenha sido renomeada.
Exemplo:
Antes: a b c d
Depos: a b c1
Neste exemplo, d foi descartada e c foi renomeada como c1.
Isso será identificado como um descarte de c e d e uma adição de c1.
-
Presume-se que novas colunas sejam adicionadas no final. Se forem adicionadas colunas no meio com o mesmo tipo de dados que a coluna seguinte, elas poderão ser interpretadas como uma ação de descarte e renomeação.
Configurações de dados registrados
Você pode definir propriedades para a tarefa de dados registrados.
-
Clique em Configurações.
Configurações gerais
-
Banco de dados
Banco de dados a ser usado no destino.
-
Esquema de tarefa
Você pode alterar o nome do esquema da tarefa de dados.
- Prefixo para todas as tabelas e visualizações
Você pode definir um prefixo para todas as tabelas e exibições criadas com essa tarefa.
Nota informativaVocê deve usar um prefixo exclusivo quando quiser usar um esquema de banco de dados em várias tarefas de dados.
Método de atualização
Detecção de alteração
-
Use Comparar com o armazenamento atual quando os dados tiverem sido carregados apenas uma vez, ou se forem atualizados usando recarregamentos totais.
-
Use Incremental usando marca d'água alta para processar as alterações de dados de forma incremental usando o método de marca d'água alta.
Esta opção requer que todas as tabelas tenham uma chave primária definida. Você pode definir uma chave primária manualmente na exibição Conjuntos de dados para tabelas que não possuem uma chave primária.
Configurações de carga incremental
Essas configurações estão disponíveis quando Incremental usando marca d'água alta é selecionado.
-
Se os dados forem replicados por uma tarefa do Qlik Replicate com carregamento total e alterações de armazenamento, defina Configurações de carga incremental como Configurações do Qlik Replicate.
-
Se os dados forem replicados por um pipeline de dados do Stitch e suas tabelas de origem tiverem uma chave primária definida, defina as Configurações de carregamento incremental como Configurações padrão do Stitch.
-
Caso contrário, defina as Configurações de carregamento incremental como Personalizado e defina você mesmo as configurações.
Configuração | Personalizado | Configurações do Qlik Replicate | Configurações padrão do Stitch |
---|---|---|---|
Alterar tabelas |
Se as alterações estiverem na mesma tabela, selecione As alterações estão na mesma tabela. Caso contrário, desmarque As alterações estão na mesma tabela e especifique um padrão de tabela de alterações em Padrão de tabela de alterações. |
${SOURCE_TABLE_NAME}__ct table | As alterações estão dentro da mesma tabela |
Coluna de marca d'água | Defina o nome da coluna de marca d'água em Nome. | header__change_seq | _SDC_BATCHED_AT |
Coluna "Data inicial" |
Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada. Se você selecionar a coluna "Data inicial" selecionada, deverá definir um padrão "Data inicial". |
header__timestamp | _SDC_BATCHED_AT
Você pode indicar a "Data inicial" pela hora de início de lote ou usando uma coluna selecionada. |
Exclusões reversíveis |
Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível Exemplo: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível Exemplo: ${is_deleted} = 1 |
Imagem anterior |
Você pode filtrar os registros da imagem anterior nas alterações das tabelas de alterações selecionando Antes da imagem e definindo uma expressão de indicação. A expressão de indicação deve ser avaliada como True se a linha contiver a imagem antes da atualização. Exemplo: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Não há registros de imagens anteriores nos dados. |
Configurações do catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Para obter mais informações sobre o Catálogo, consulte Compreendendo seus dados com ferramentas de catálogo.
Configuração recomendada do Qlik Replicate
Essas configurações de tarefa do Qlik Replicate são recomendadas ao registrar dados que são replicados usando uma tarefa do Qlik Replicate que armazena alterações.
-
A tarefa do Qlik Replicate deve ser configurada com as opções Carregamento total e Armazenar alterações.
-
Em Armazenar configurações de alterações > Tabelas de alterações, certifique-se de que as seguintes colunas da tabela de alterações sejam incluídas, usando seus nomes padrão:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
Em Armazenar configurações de alterações > Tabelas de alterações, defina Na ATUALIZAÇÃO como Armazenar após imagem apenas.
Isso reduz o espaço para cada atualização, pois a imagem anterior não está incluída. Use esta opção se não planeja usar a imagem anterior.
-
Em Armazenar configurações de alterações > Tabelas de alterações, defina Sufixo como o valor padrão __ct.
-
Não aplique as seguintes transformações globais:
-
Renomear Tabela de Alterações
-
Esquema de Renomear Tabela de Alterações
-
-
Se uma chave primária em uma tabela de origem puder ser atualizada, habilite DELETE e INSERT ao atualizar uma opção de coluna de chave primária no Ajuste de processamento de alterações.
O histórico do registro antigo não será preservado no novo registro.
Nota informativaEsta opção é compatível a partir do Qlik Replicate November 2022.
Operações na tarefa de dados registrados
Você pode realizar as seguintes operações em uma tarefa de dados registrados no menu de tarefas.
-
Abrir
Isso abre a tarefa de dados. É possível visualizar a estrutura da tabela e os detalhes sobre a tarefa de dados.
-
Editar
Você pode editar o nome e a descrição da tarefa e adicionar tags.
-
Excluir
Você pode excluir a tarefa de dados.
Os dados de origem não são excluídos.
- Sincronizar conjuntos de dados
Isso sincroniza as alterações de design que não podem ser ajustadas automaticamente.
-
Recriar tabelas
Isso recria os conjuntos de dados da origem.
-
Armazenar dados
Você pode criar uma tarefa de armazenamento de dados que usa dados dessa tarefa de dados iniciais.
Considerações de histórico ao definir uma coluna "Data de início"
Se os dados históricos estiverem habilitados em uma tarefa downstream e você usar uma coluna "Data de início", a data retroativa não será compatível. Isso significa que, se um lote de alterações contiver uma versão mais antiga de um registro que não existe no armazenamento, o lote de alterações também deverá incluir todas as versões mais recentes do registro. Se as versões mais recentes não forem incluídas, elas serão excluídas.
Nesses exemplos, o armazenamento contém estes registros desde o início:
Data de início | Nome | Cidade |
---|---|---|
2/out/2023 | Joe | Nova York |
3/out/2023 | Joe | Londres |
Exemplo 1:
Se você inserir o seguinte lote de alterações:
Data de início | Nome | Cidade |
---|---|---|
4/out/2023 | Joe | Paris |
O resultado no armazenamento será, conforme esperado:
Data de início | Nome | Cidade |
---|---|---|
2/out/2023 | Joe | Nova York |
3/out/2023 | Joe | Londres |
4/out/2023 | Joe | Paris |
Exemplo 2:
Mas, se você inserir o seguinte registro mais antigo em um lote de alterações:
Data de início | Nome | Cidade |
---|---|---|
1/out/2023 | Joe | Berlim |
Isso resulta na remoção dos registros mais recentes do armazenamento:
Data de início | Nome | Cidade |
---|---|---|
1/out/2023 | Joe | Berlim |
Exemplo 3:
Para manter o histórico, o lote de alterações deve incluir os registros mais recentes:
Data de início | Nome | Cidade |
---|---|---|
1/out/2023 | Joe | Berlim |
2/out/2023 | Joe | Nova York |
3/out/2023 | Joe | Londres |
Isso garantirá que o histórico também seja mantido no armazenamento:
Data de início | Nome | Cidade |
---|---|---|
1/out/2023 | Joe | Berlim |
2/out/2023 | Joe | Nova York |
3/out/2023 | Joe | Londres |
Considerações
-
Não use a opção de histórico na replicação do Stitch. Use as opções para manter os dados históricos no Qlik Talend Data Integration.
Considerações sobre capacidade de dados
-
Se uma tabela registrada não tiver chave primária, um recarregamento total será executado a cada execução. Isso será contabilizado em sua cota de capacidade de dados registrada mensalmente. Isso ocorre porque o armazenamento precisará comparar todos os registros para encontrar alterações.
-
A capacidade de dados para dados registrados é contada no armazenamento. Isso significa que uma exclusão nos dados registrados é convertida em uma inserção ou atualização do armazenamento (uma exclusão reversível) e contada na capacidade de dados.
-
Exclusões reversíveis, inserções e atualizações serão contadas duas vezes para a capacidade de dados se uma tabela de dados registrados for usada em duas tarefas de armazenamento de dados.