Configurações do projeto de pipeline de dados
Você pode alterar as configurações de um projeto de pipeline de dados no Qlik Talend Data Integration. As propriedades são comuns ao projeto e a todas as tarefas de dados incluídas. Algumas configurações apenas estão disponíveis para plataformas de dados específicas.
-
Clique em Configurações no projeto.
Configurações para projetos de pipeline de dados do armazém de dados
Plataforma de dados
Você pode alterar as seguintes configurações:
-
Conexão
Conexão para o projeto.
-
Conexão com a área de teste
Essa opção não está disponível quando a plataforma de dados é o Snowflake.
Metadados
Você pode definir um sufixo para artefatos internos e sufixos padrão para exibições que são criadas.
-
Preferências de artefatos
-
Prefixo para todos os esquemas: O prefixo a ser adicionado aos esquemas de dados criados no projeto. Isso é útil quando um projeto importado está no mesmo armazém de dados na nuvem como um projeto exportado.
-
Sufixo para esquema interno: o sufixo a ser usado para esquemas utilizados para armazenar artefatos internos.
-
Capitalização padrão do nome do esquema: a capitalização padrão para todos os nomes de esquema. Se seu banco de dados estiver configurado para forçar a capitalização, essa opção não terá efeito.
-
-
Sufixos de visualizações externas
Defina sufixos padrão para exibições criadas nas tarefas de dados incluídas no projeto.
Configurações padrão para novas tarefas
Você pode definir valores padrão para tarefas de dados que são criadas no projeto. Ao criar uma tarefa de dados, você pode alterar o valor.
Você pode definir o banco de dados padrão para criar artefatos de destino para todos os tipos de tarefas de dados.
Padrões da tarefa de aterrisagem
Banco de dados padrão
Você pode usar o banco de dados padrão do projeto ou especificar outro banco de dados.
Acessando o destino via proxy ao usar o Gateway Data Movement
-
Ao usar o Data Movement gateway, conecte-se via proxy a
Ao usar o Gateway Data Movement, você pode se conectar à plataforma de destino e à plataforma (área) de teste via proxy.
Para obter mais informações sobre como configurar o Gateway Data Movement para usar um servidor proxy, consulte Configurando o locatário do Qlik Cloud e um servidor proxy.
-
Plataforma de destino
Nota informativaDisponível ao usar o Snowflake, o Google BigQuery e o Databricks. -
Plataforma de teste
Nota informativaDisponível ao usar o Azure Synapse Analytics, o Amazon Redshift e o Databricks.
-
Padrões de tarefa de armazenamento
-
Armazenamento de dados históricos (Tipo 2)
Você pode manter dados de alterações históricas para poder recriá-los facilmente à medida que eles são analisados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver os dados históricos.
-
Visualizações ao vivo
Exibições ao vivo mostram uma exibição para cada tabela de origem selecionada que mescla a tabela com as alterações da tabela de alterações. Isso fornece às consultas uma exibição ao vivo dos dados sem ter que esperar pelo próximo ciclo de aplicação.
Banco de dados padrão
Você pode usar o banco de dados padrão do projeto ou especificar outro banco de dados.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Tipo de exibição padrão
-
Exibições padrão
Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela.
-
Exibições seguras do Snowflake
Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes. As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão.
Padrões de tarefa de dados registrados
Banco de dados padrão
Você pode usar o banco de dados padrão do projeto ou especificar outro banco de dados.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Configurações de carga incremental
Essas configurações estão disponíveis quando Incremental usando marca d'água alta é selecionado.
-
Alterar tabelas
Se as alterações estiverem na mesma tabela, selecione As alterações estão na mesma tabela.
Caso contrário, limpe As alterações estão na mesma tabela e especifique um padrão de tabela de alterações.
-
Coluna de marca d'água
Defina o nome da coluna de marca d'água em Nome.
-
Coluna "Data inicial"
Você pode indicar a "Data inicial" pela hora de início ou usando uma coluna selecionada.
Se você selecionar a coluna "Data inicial" selecionada, deverá definir um padrão "Data inicial".
-
Exclusões reversíveis
Você pode incluir exclusões reversíveis nas alterações selecionando As alterações incluem exclusões reversíveis e definindo uma expressão de indicação.
A expressão de indicação deve ser avaliada como True se a alteração for uma exclusão reversível
Exemplo: ${is_deleted} = 1
-
Imagem anterior
Você pode filtrar os registros da imagem anterior nas alterações das tabelas de alterações selecionando Antes da imagem e definindo uma expressão de indicação.
A expressão de indicação deve ser avaliada como True se a linha contiver a imagem antes da atualização.
Exemplo: ${header__change_oper} = 'B'
Padrões de tarefa de transformação
-
Armazenamento de dados históricos (Tipo 2)
Você pode manter dados de alterações históricas para poder recriá-los facilmente à medida que eles são analisados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver os dados históricos.
Materialização
-
Não materializado (somente exibições)
Selecione esta opção para criar apenas visualizações que executam transformações dinamicamente.
-
Materializado (tabelas e visualizações)
Selecione esta opção para criar tabelas e visualizações.
Banco de dados padrão
Você pode usar o banco de dados padrão do projeto ou especificar outro banco de dados.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Tipo de exibição padrão
-
Exibições padrão
Use exibições padrão para exibir os resultados de uma consulta como se fosse uma tabela.
-
Exibições seguras do Snowflake
Use as visualizações seguras do Snowflake para visualizações designadas para privacidade de dados ou proteção de informações confidenciais, como visualizações criadas para limitar o acesso a dados confidenciais que não devem ser expostos a todos os usuários das tabelas subjacentes. As visualizações seguras do Snowflake podem ser executadas mais lentamente do que as visualizações padrão.
Tipo de tabela padrão
Essas configurações estão disponíveis apenas em projetos com Snowflake como plataforma de dados.
-
Tipo de tabela
Você pode selecionar qual tipo de tabela usar:
-
Tabelas do Snowflake
-
Tabelas Iceberg gerenciadas pelo Snowflake
Você deve definir o nome padrão do volume externo no Volume externo do Snowflake.
-
-
Pasta de armazenamento na nuvem para usar
Selecione qual pasta usar ao aterrissar dados na área de preparação.
-
Pasta padrão
Isso cria uma pasta com o nome padrão: <nome do projeto>/<nome da tarefa de dados>.
-
Pasta raiz
Armazene dados na pasta raiz do armazenamento.
-
Pasta
Especifique um nome de pasta a ser usado.
-
-
Sincronizar com o Snowflake Open Catalog
Habilite isso para permitir que o Snowflake Open Catalog gerencie os arquivos no armazenamento de arquivos em nuvem.
Padrões de tarefa de datamart
Banco de dados padrão
Você pode usar o banco de dados padrão do projeto ou especificar outro banco de dados.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Padrões de tempo de execução
Você pode definir configurações padrão de desempenho em tempo de execução para ativos de dados incluídos no projeto.
Padrões de aterrisagem
-
Você pode definir o número máximo de conexões de banco de dados em Execução paralela.
-
Você pode definir as configurações de programação padrão para uma programação baseada no tempo. Esse será o valor padrão para cada tarefa de armazenamento criada.
-
Você pode definir o data warehouse padrão se a plataforma do projeto for o Snowflake.
-
Você pode definir as configurações de programação padrão para uma programação baseada no tempo ou Na conclusão bem-sucedida de qualquer tarefa de dados de entrada. Esse será o valor padrão para cada tarefa de transformação criada.
-
Você pode definir o data warehouse padrão se a plataforma do projeto for o Snowflake.
-
Você pode definir as configurações de programação padrão para uma programação baseada no tempo ou Na conclusão bem-sucedida de qualquer tarefa de dados de entrada. Esse será o valor padrão para cada tarefa de datamart criada.
-
Você pode definir o data warehouse padrão se a plataforma do projeto for o Snowflake.
-
Você pode definir o data warehouse padrão se a plataforma do projeto for o Snowflake.
Configurações para projetos de pipeline de dados do Qlik Open Lakehouse
Plataforma de dados
Você pode alterar as seguintes configurações:
-
Conexão do catálogo de dados: Selecione uma conexão existente ou clique em Criar nova para adicionar uma nova conexão de catálogo de dados. Você também pode editar uma conexão existente e verificar se ela funciona clicando em Testar conexão.
-
Conexão de destino de aterrisagem: selecione o compartimento S3 para aterrisagem dos dados ou clique em Criar novo para adicionar uma nova localização de compartimento. Você também pode editar uma conexão existente e verificar se ela funciona clicando em Testar conexão.
Metadados
Você pode definir um sufixo para artefatos internos e sufixos padrão para exibições que são criadas.
-
Preferências de artefatos
-
Prefixo para todos os esquemas: O prefixo a ser adicionado aos esquemas de dados criados no projeto. Isso é útil quando um projeto importado está no mesmo armazém de dados na nuvem como um projeto exportado.
-
Sufixo para esquema interno: o sufixo a ser usado para esquemas utilizados para armazenar artefatos internos.
-
Capitalização padrão do nome do esquema: a capitalização padrão para todos os nomes de esquema. Se seu banco de dados estiver configurado para forçar a capitalização, essa opção não terá efeito.
-
-
Sufixos de visualizações externas
Defina sufixos padrão para exibições criadas nas tarefas de dados incluídas no projeto.
-
Hash
Você pode definir uma string de hash salt para ser usada ao calcular o hash de uma coluna, por exemplo, para mascarar informações confidenciais. Isso gerará um hash SHA-256 da coluna de entrada após concatená-la com a string de hash salt.
Você pode usar o ID do projeto como string de salt, ou definir uma string de salt personalizada.
Configurações padrão para novas tarefas
Você pode definir valores padrão para tarefas de dados que são criadas no projeto. Ao criar uma tarefa de dados, você pode alterar o valor.
Você pode definir o banco de dados padrão para criar artefatos de destino para todos os tipos de tarefas de dados.
Padrões de tarefa de aterrisagem no lake
Pasta para uso
Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:
-
Pasta padrão
O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
-
Pasta raiz
Os arquivos serão gravados na pasta raiz do compartimento.
-
Pasta
Especifique um nome de pasta. A pasta será criada durante a tarefa de dados, caso ainda não exista.
Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
Padrões de tarefa de armazenamento
-
Armazenamento de dados históricos (Tipo 2)
Você pode manter dados de alterações históricas para poder recriá-los facilmente à medida que eles são analisados em um momento específico. Você pode usar exibições de histórico e exibições de histórico ao vivo para ver os dados históricos.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Pasta para usar na área de preparação
Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:
-
Pasta padrão
O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
-
Pasta raiz
Os arquivos serão gravados na pasta raiz do compartimento.
-
Pasta
Especifique um nome de pasta. A pasta será criada durante a tarefa de dados, caso ainda não exista.
Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
Padrões de tarefa de aterrisagem de streaming
Você pode definir valores padrão para tarefas de aterrissagem de streaming criadas no projeto.
Pasta para uso
Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:
-
Pasta padrão
O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
-
Pasta raiz
Os arquivos serão gravados na pasta raiz do compartimento.
-
Pasta
Especifique um nome de pasta. A pasta será criada durante a tarefa de dados, caso ainda não exista.
Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
Retenção de pastas
Selecione por quanto tempo reter os dados:
-
Os dados e metadados não são excluídos
Nem os dados nem os metadados são excluídos.
-
Excluir dados e metadados após o período de retenção
Os dados e metadados são excluídos após o término do período de retenção.
-
Excluir metadados após o período de retenção. Os dados são excluídos por um sistema externo.
Os metadados são limpos após o término deste período. Os dados subjacentes, por exemplo o objeto S3, não são excluídos pelo Qlik, mas sim por um sistema externo.
Padrões de tarefa de transformação de streaming
Você pode definir valores padrão para tarefas de transformação de streaming criadas no projeto.
Catálogo
-
Publicar no catálogo
Selecione esta opção para publicar esta versão dos dados no Catálogo como um conjunto de dados. O conteúdo do Catálogo será atualizado na próxima vez que você preparar esta tarefa.
Pasta para uso
Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:
-
Pasta padrão
O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
-
Pasta raiz
Os arquivos serão gravados na pasta raiz do compartimento.
-
Pasta
Especifique um nome de pasta. A pasta será criada durante a tarefa de dados, caso ainda não exista.
Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
Definições da tabela
Configure as colunas de cabeçalho da exibição padrão que aparecem por padrão nas exibições padrão para todas as tarefas de transformação de streaming neste projeto.
-
hdr__from_timestamp
Quando esta opção está ativada, a coluna de cabeçalho hdr__from_timestamp aparece nas visualizações padrão. Além disso, quando Particionar por data de ingestão de evento é selecionado no assistente de integração, hdr__from_timestamp é usada como a coluna de partição padrão. Você pode substituir essa configuração no nível da tarefa ou do conjunto de dados.
Nota informativaVisualizações de histórico sempre incluem todas as colunas de cabeçalho da visualização padrão, independentemente dessa configuração.
Tempo de execução
Você pode definir configurações padrão de desempenho de tempo de execução para tarefas de dados incluídas no projeto.
Padrões de tarefa de aterrisagem no lake
-
Você pode definir o número máximo de conexões de banco de dados em Execução paralela.
Padrões de tarefa de armazenamento
Cluster do Lakehouse
Opcionalmente, escolha um Cluster lakehouse dedicado para tarefas de armazenamento.
Padrões de tarefa de aterrisagem de streaming
Número de leitores
Selecione o número de leitores a serem usados. O valor deve estar entre 1 e 1.000.
Cluster do Lakehouse
Opcionalmente, escolha um Cluster lakehouse dedicado para tarefas de armazenamento.
Padrões de tarefa de transformação de streaming
Cluster do Lakehouse
Opcionalmente, escolha um Cluster lakehouse dedicado para tarefas de armazenamento.
-
Você pode definir o data warehouse padrão se a plataforma do projeto for o Snowflake.