Google Cloud Storage
O Google Cloud Storage é o serviço de armazenamento de objetos unificado do Google para armazenar e acessar dados na infraestrutura do Google Cloud. Ele oferece alta disponibilidade, redundância global e se integra ao ecossistema mais amplo do Google Cloud.
O Qlik Talend Cloud usa uma conta de serviço do Google Cloud com acesso de leitura ao compartimento de destino para se conectar ao Google Cloud Storage (GCS). O conector recupera arquivos do compartimento especificado, descobre automaticamente esquemas amostrando o conteúdo do arquivo e executa a replicação de dados incremental com base nos carimbos de data/hora de modificação do arquivo.
Preparando para autenticação
Para acessar seus dados, você precisa autenticar a conexão com as credenciais da sua conta.
Para configurar sua conta do Google Cloud Storage, você precisa:
- Um projeto do Google Cloud Platform (GCP) com a API do Cloud Storage ativada.
- Um compartimento do Google Cloud Storage (GCS) que contém os arquivos a serem replicados.
- Uma conta de serviço com acesso de leitura ao compartimento.
A função recomendada é Visualizador de Objetos de Armazenamento (
roles/storage.objectViewer), que concede as permissõesstorage.objects.getestorage.objects.listnecessárias. Para obter mais informações, consulte Documentação de funções do IAM do Google Cloud Storage. - Um arquivo de chave JSON de conta de serviço baixado para a conta de serviço.
Para criar uma conta de serviço e recuperar suas credenciais:
- Faça login na sua conta do Google Cloud.
- Navegue até IAM e Administração > Contas de Serviço.
- Clique em Criar conta de serviço.
- Insira um nome e uma descrição para a conta de serviço e, em seguida, clique em Criar e continuar.
- Conceda à conta de serviço a função Visualizador de objetos de armazenamento ou uma função personalizada com as permissões
storage.objects.getestorage.objects.list. - Clique em Continuar e Concluído.
- Na sua conta de serviço recém-criada, clique no menu Ações.
- Navegue até Gerenciar chaves > Adicionar chave > Criar nova chave.
- Selecione JSON e clique em Criar.
O arquivo de chave JSON é baixado diretamente para sua máquina. Este arquivo inclui os campos
project_id,client_emaileprivate_keynecessários para estabelecer a conexão.Você pode baixar o arquivo de chave apenas uma vez. Certifique-se de armazená-lo com segurança e fazer backup dele, pois ele fornece acesso aos seus recursos do Google Cloud.
Formatos de arquivo não suportados
- Texto delimitado: CSV, TSV, PSV, TXT (com delimitador configurável)
- Linhas JSON (
.jsonl) - Parquet (
.parquet) - Avro (
.avro) - Arquivos compactados com Gzip (
.gz) contendo qualquer um dos formatos acima - Arquivos ZIP contendo arquivos CSV, JSON Lines, TXT, TSV, PSV ou Gzip
Criando a conexão
Para obter mais informações, consulte Conectando-se a aplicativos SAP.
- Preencha as propriedades de conexão obrigatórias.
-
Forneça um nome para a conexão em Nome da conexão.
-
Selecione Abrir metadados de conexão para definir metadados para a conexão quando ela for criada.
-
Clique em Criar.
| Configuração | Descrição |
|---|---|
| Gateway de dados |
Selecione um Gateway Data Movement se for necessário para seu caso de uso. Nota informativa
Esse campo não está disponível com a assinatura do Iniciante do Qlik Talend Cloud, pois esta não é compatível com o Gateway Data Movement. Se você tiver outro nível de assinatura e não quiser usar o Gateway Data Movement, selecione Nenhum. Para obter informações sobre os benefícios do Gateway Data Movement e casos de uso que exigem isso, consulte Qlik Data Gateway - Movimentação de dados. |
| Data inicial |
Digite a data, no formato |
| E-mail do cliente | E-mail do cliente do arquivo de chave JSON da conta de serviço. |
| ID do projeto | ID do projeto do arquivo de chave JSON da conta de serviço. |
| Compartimento | Nome do compartimento do Google Cloud Storage (GCS) onde os arquivos estão armazenados, por exemplo, my-gcs-bucket. Não inclua o prefixo |
| Tabelas | Configure tabelas para controlar quais arquivos são lidos e como seu conteúdo é interpretado. Cada definição de tabela inclui um padrão de pesquisa de arquivos, um nome de tabela e configurações opcionais para comportamentos avançados. |
| Chave privada | Chave privada do arquivo de chave JSON da conta de serviço. |
Configuração da tabela
Cada entrada na configuração da tabela especifica uma tabela lógica criada a partir de arquivos no compartimento de destino. Você pode configurar as seguintes propriedades para cada tabela:
| Propriedade | Obrigatório ou opcional | Descrição |
|---|---|---|
| Nome da tabela | Obrigatório | Especifique um nome para a tabela lógica, por exemplo, my_orders_csv. Esse nome aparecerá como o nome do fluxo no Qlik Talend Cloud. |
| Padrão de pesquisa | Obrigatório | Insira uma expressão regular para corresponder aos nomes dos arquivos, por exemplo, .csv$ para selecionar todos os arquivos CSV. |
| Prefixo de pesquisa | Opcional | Forneça um prefixo de caminho dentro do compartimento para restringir a pesquisa de arquivos, por exemplo, exports/orders/. O uso de um prefixo melhora o desempenho ao limitar o número de arquivos verificados. |
| Propriedades chave | Opcional | Liste um ou mais nomes de coluna, separados por vírgulas, para definir a chave primária. Por exemplo: id ou id,date. |
| Substituições de data | Opcional | Liste os nomes das colunas, separados por vírgulas, a serem tratados como campos de data e hora. Use esta opção se esses campos não forem detectados automaticamente durante a descoberta do esquema. |
| Delimitador | Opcional | Especifique o caractere que separa os valores em seus arquivos. O padrão é , (vírgula). Use \t para arquivos delimitados por tabulação (TSV) ou | para arquivos separados por barra vertical (PSV). Se deixado em branco, o sistema detecta automaticamente o delimitador com base na extensão do arquivo. |
Tabelas replicadas
As tabelas são criadas com base na configuração da tabela (veja acima). Cada tabela corresponde a um conjunto de arquivos no compartimento do Google Cloud Storage (GCS) que correspondem ao padrão de pesquisa especificado e a qualquer prefixo opcional. O conector descobre automaticamente os esquemas, amostrando até 5 arquivos por tabela, lendo uma linha a cada cinco, com um máximo de 1.000 registros por arquivo.
A replicação é incremental e usa carimbos de data/hora de modificação de arquivo para rastrear alterações. Durante cada extração, o conector processa apenas os arquivos que foram modificados desde a última sincronização bem-sucedida, conforme registrado pelo marcador de sincronização.
As seguintes colunas do sistema são adicionadas a cada tabela por padrão:
| Coluna | Descrição |
|---|---|
_sdc_source_bucket
|
O nome do compartimento do Google Cloud Storage (GCS) onde o registro foi lido. |
_sdc_source_file
|
O caminho completo do arquivo que contém o registro. |
_sdc_source_lineno
|
O número da linha do registro dentro do arquivo. |
_sdc_extra
|
Quaisquer colunas extras encontradas durante a análise que não correspondem ao esquema descoberto. Aplica-se apenas a arquivos JSONL. |
Limitações e considerações
- As credenciais da conta de serviço (
project_id,client_email,private_key) devem ser fornecidas como valores individuais extraídos do arquivo de chave JSON; o upload de arquivo não é compatível. - Arquivos compactados com Gzip (
.gz) são suportados. O conector lê o nome do arquivo original do cabeçalho Gzip para determinar o formato do arquivo interno. Arquivos Gzip criados com--no-name(sem nome de arquivo armazenado no cabeçalho) são ignorados. - Compactação aninhada (por exemplo, um
.gzdentro de outro.gzou um.zipdentro de um.zip) não é suportada. Esses arquivos são ignorados. - Arquivos com extensões
.csv,.txt,.tsv,.psvou.jsonlsão verificados em busca de bytes mágicos do gzip e descompactados se estiverem compactados em gzip — mesmo quando o arquivo não possui uma extensão.gz. - O campo
search_patternusa sintaxe de expressão regular, não padrões glob. Por exemplo, use\.csv$em vez de*.csv. - O conector possui lógica de repetição integrada com retirada exponencial para limites de taxa da API do Google Cloud Storage (GCS) (
429) e erros transientes do servidor (500,502,503,504). São feitas até cinco tentativas antes de falhar. - Arquivos sem uma extensão reconhecida são ignorados e um aviso é emitido.