Qualidade de dados para conjuntos de dados baseados em conexão
Para se beneficiar da descoberta de tipos semânticos e das leituras de qualidade de dados em seus conjuntos de dados baseados em conexão, você precisa configurar um pré-requisito importante com suas conexões de dados no contexto de produtos de dados.
-
A qualidade dos dados é compatível nos modos pull-up e push-down para conjuntos de dados do Snowflake e Databricks.
-
A qualidade dos dados é compatível no modo pull-up para os conjuntos de dados baseados nos bancos de dados a seguir:
-
Amazon Athena
-
Amazon Redshift
-
Apache Hive
-
Apache Phoenix
-
Apache Spark
-
Banco de dados Azure SQL
-
Azure Synapse Analytics
-
Cassandra
-
Cloudera Impala
-
Couchbase
-
DynamoDB
-
Google BigQuery
-
Marketo
-
Microsoft SQL Server
-
MongoDB
-
MySQL Enterprise Edition
-
Oracle
-
PostgreSQL
-
Presto
-
SAP Hana
-
Snowflake
-
Teradata
-
Configurações de conexão
Para criar conjuntos de dados a partir de uma conexão e, posteriormente, ter acesso ao seu esquema e qualidade na visão geral do conjunto de dados e na visão geral do produto de dados, você precisa configurar a mesma conexão no Qlik Talend Data Integration e no Qlik Cloud Analytics.
Digamos que você queira trazer dados armazenados em um banco de dados, adicioná-los ao seu Catálogo como conjuntos de dados e agrupá-los em um produto de dados que você usará para um aplicativo analítico.
-
Em Qlik Talend Data Integration > Conexões, clique em Criar conexão.
-
Configure seu acesso ao banco de dados usando as credenciais de um usuário que tenha permissões suficientes e acesso às tabelas que você deseja importar.
-
No Qlik Cloud Analytics, clique em Criar e, em seguida, em Conexão de dados.
-
Configure seu acesso ao mesmo banco de dados de anteriormente, usando de preferência as credenciais do mesmo usuário ou um que tenha pelo menos as permissões READ nas tabelas.
-
(apenas para o Snowflake) No campo Função, você deve inserir uma função que corresponda a uma função existente criada no banco de dados Snowflake e que tenha os seguintes privilégios nesses objetos.
-
USAGE on WAREHOUSE
-
USAGE on DATABASE
-
USAGE on SCHEMA
-
CREATE TABLE on SCHEMA
-
CREATE FUNCTION on SCHEMA
-
CREATE VIEW on SCHEMA
-
SELECT on TABLE
-
-
(somente para Databricks) No Databricks, você deve definir os seguintes privilégios no banco de dados:
-
CREATE TABLE
-
CREATE VOLUME
-
MODIFY
-
LER VOLUME
-
SELECT
-
USE SCHEMA
-
WRITE VOLUME
-
-
De volta à página inicial do Qlik Talend Data Integration, clique em Adicionar novo e em Criar projeto de dados.
-
Use sua conexão da etapa 2 como fonte para seu projeto e comece a construir seu pipeline. Para obter mais informações, consulte Criando um projeto de pipeline de dados.
-
Em qualquer ponto do pipeline, selecione uma tarefa de dados, vá para Configurações e, em seguida, para a guia Catálogo, onde você pode selecionar a caixa de seleção Publicar no Catálogo.
Isso significa que esta versão do conjunto de dados será publicada no Catálogo quando o projeto de dados for preparado e executado. Também é possível marcar esta opção no nível do projeto.
-
Execute seu projeto de dados.
Após executar seu projeto de dados, o novo conjunto de dados é adicionado ao Catálogo e você poderá acessar indicadores de qualidade e mais detalhes sobre seu conteúdo. Essa configuração também possibilita usar os conjuntos de dados como fonte para aplicativos de análise.
Você pode adicionar quantos conjuntos de dados forem necessários antes de criar seu produto de dados. Como o Catálogo pode ser acessado tanto pelo hub do Qlik Talend Data Integration quanto pelo hub do Qlik Cloud Analytics Services, você pode abrir seus conjuntos de dados no local de sua preferência e a conexão correta será usada dependendo do contexto.
Computação de qualidade em pull-up/push-down
Usar o botão Calcular ou Atualizar na Visão geral do seu conjunto de dados aciona um cálculo de qualidade em uma amostra de 1.000 linhas do banco de dados.
Por padrão, essa operação ocorre no modo pull-up. Para conjuntos de dados do Snowflake e Databricks, essa operação pode ocorrer tanto no modo pull-up (padrão) quanto no modo push-down, no lado do banco de dados.
Uma amostra de 100 linhas é então enviada de volta ao Qlik Cloud, onde você pode exibi-la como uma visualização com tipos semânticos atualizados e estatísticas de validade e integridade. Esta amostra é então armazenada no MongoDB.
Pré-requisitos para qualidade de dados no modo pushdown no Databricks
Para calcular a qualidade dos dados no modo pushdown no Databricks, o Qlik precisa sincronizar determinados dados de referência de qualidade, como tipos semânticos, com sua instância do Databricks. Também aproveita alguns recursos avançados do Databricks.
Para que esse recurso funcione corretamente, os pré-requisitos a seguir devem ser atendidos em sua instância do Databricks:
-
O Unity Catalog deve estar ativado.
-
Os usuários associados à conexão com o Databricks devem ter permissões para criar uma tabela, criar um esquema, criar um volume e gravar um volume.
O Qlik criará um esquema chamado qlik_internal no banco de dados especificado em sua conexão. Esse esquema não será removido automaticamente pela Qlik. Você precisará excluí-lo manualmente se parar de usar o Infraestrutura da nuvem SaaS.
-
Agrupamentos deve estar ativado.
Quanto às limitações, observe que o reconhecimento de data em colunas de string é limitado ao formato ISO-8601.