Amazon S3

O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e desempenho líderes do setor.

Uma visão de alto nível desse conector, incluindo links úteis e recursos compatíveis.

Recurso/Capacidade	Detalhes do suporte
Projetos do Qlik Talend Data Integration compatíveis	Apenas Projetos de replicação. Não há suporte para projetos de pipeline de dados.
Métodos de atualização de destino	Tarefas de replicação: Aplicar alterações Armazenar alterações Aterrisando dados em tarefas de data lake: Captura de dados de alterações (CDC)
Gerenciando metadados	A geração manual de metadados não é necessária.
Evolução do esquema	Somente a operação Alterar tipo de dados da coluna é compatível.
Replicação de colunas LOB (NCLOB, CLOB e BLOB)	Sem suporte.
CDC agendado	Obrigatório. É assim que o destino é mantido atualizado com as alterações na fonte. Para tarefas de replicação, consulte Programando tarefas Para tarefas de aterrisagem no lake, consulte Agendando uma CDC para tarefas de aterrisagem no lake
Notificações	Parcialmente compatível Configurando notificações sobre alterações na operação
Monitoramento	Somente CDC, pois o carregamento total não é relevante para esse conector. Monitorando uma tarefa de dados individual
Desencaixe automático de cargas úteis de colunas JSON	Sem suporte. As cargas úteis da coluna JSON nos conjuntos de dados de origem não são anuladas automaticamente no destino.

Preparando para autenticação

Para acessar seus dados, você precisa autenticar a conexão com as credenciais da sua conta.

Certifique-se de que a conta que você usa tenha acesso de leitura às tabelas que deseja buscar.

Para se conectar ao Amazon S3, você precisa de permissões no AWS Identity Access Management (IAM) que lhe permitam criar políticas, criar funções e anexar políticas a funções. Isso é necessário para conceder a autorização ao seu compartimento S3:

Criando uma política do IAM.
Criando uma função do IAM.

Criando uma política do IAM

Uma política do IAM é uma linguagem de política de acesso baseada em JSON para gerenciar permissões para recursos de compartimento.

Permissões do Amazon S3
Nome da permissão	Operação	Descrição
s3:GetObject	Objeto GET	Permite a recuperação de objetos do Amazon S3.
s3:GetObject	Objeto HEAD	Permite a recuperação de metadados de um objeto sem retornar o objeto em si.
s3:ListBucket	Compartimento GET (objetos de lista)	Permite o retorno de alguns ou de todos (até 1.000) os objetos em um compartimento.
s3:ListBucket	Compartimento HEAD	Usado para determinar se um compartimento existe e se o acesso é permitido.

Para criar a política do IAM:

No AWS, navegue até o serviço do IAM clicando no menu Serviços e digitando IAM.
Clique em IAM quando ele for exibido nos resultados.
Clique em Políticas no menu do lado esquerdo da página.
Clique em Criar política.
Na página Criar política, clique na guia JSON.
Selecione tudo o que estiver no campo de texto e exclua-o.

No campo de texto, cole o JSON a seguir e substitua MyBucketName pelo nome do seu compartimento:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

Clique em Revisar política.
Na página Revisar política, dê um nome à política. Por exemplo: qlik_amazon_s3.
Clique em Criar política.

Criando uma função IAM

Para concluir esta etapa, você precisa das seguintes permissões do AWS IAM: CreateRole e AttachRolePolicy. Consulte a documentação da Amazon para obter mais informações.

Se estiver criando várias integrações do Amazon S3, você precisará concluir esta etapa para cada integração que estiver conectando.

No AWS, navegue até a página Funções do IAM.
Clique em Criar função.
Na página Criar função:
1. Na seção Selecionar tipo de entidade confiável, clique na opção Outra conta da AWS.
2. No campo ID da conta, cole 338144066592.
3. Na seção Opções, marque a caixa de seleção Exigir ID externo.
4. No campo ID externo exibido, cole qlik_connection_<tenant-id> e substitua <tenant-id> pelo seu ID do locatário.
  Para encontrar o ID do locatário, consulte Localizar informações do locatário.
5. Clique em Avançar: Permissões.
Na página Anexar permissões:
1. Procure a política que você criou em Criando uma política do IAM.
2. Uma vez localizada, marque a caixa ao lado dela na tabela.
3. Clique em Avançar: Tags.
Se quiser inserir alguma tag, faça-o na página Adicionar tags. Caso contrário, clique em Avançar: Revisar.
Na página Revisar:
1. No campo Nome da função, cole qlik_s3_<tenant-id> e substitua <tenant-id> pelo seu ID do locatário.
  Para encontrar o ID do locatário, consulte Localizar informações do locatário.
2. Insira uma descrição no campo Descrição da função. Por exemplo: Qlik role for Amazon S3 integration.
3. Clique em Criar função.

Definindo o padrão de pesquisa

O campo Padrão de Pesquisa define os critérios de busca que o Qlik deve usar para selecionar e replicar arquivos. Esse campo aceita expressões regulares, que podem ser usadas para incluir um único arquivo ou vários arquivos.

Ao criar um padrão de pesquisa, tenha em mente o seguinte:

Ao incluir vários arquivos para uma única tabela, cada arquivo deve ter os mesmos valores de linha de cabeçalho.
Caracteres especiais, como pontos (.), têm um significado especial em expressões regulares. Para corresponder exatamente, eles precisarão ser caracteres de escape. Por exemplo: .\
O Qlik usa Python para expressões regulares, cuja sintaxe pode variar em relação a outras variedades. Tente usar o PyRegex para testar suas expressões antes de salvar a integração.
Os padrões de pesquisa do Parquet (.parquet) e Arvo (.arvo) também são aceitos.
Os padrões de pesquisa devem levar em conta como os dados nos arquivos são atualizados. Considere estes exemplos:

Cenário	Arquivo único, atualizado periodicamente	Vários arquivos, gerados diariamente
Como são feitas as atualizações	Um único arquivo JSONL é atualizado periodicamente com dados de clientes novos e atualizados.	Todos os dias é criado um novo arquivo CSV que contém dados novos e atualizados dos clientes. Os arquivos antigos nunca são atualizados após serem criados.
Nome do arquivo	`customers.jsonl`	`customers-[STRING].csv`, em que `[STRING]` é uma string aleatória exclusiva
Padrão de pesquisa	Como haverá apenas um arquivo, você pode inserir o nome exato do arquivo no seu compartimento S3: `customers\.jsonl`	Para garantir que os arquivos novos e atualizados sejam identificados, você deve inserir um padrão de busca que corresponda a todos os arquivos que começam com `customers`, independentemente dos caracteres de busca no nome do arquivo: `(customers-).*\.csv`
Corresponde	`customer.jsonl`, exatamente	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` etc.

Requisitos do arquivo

Cabeçalho da primeira linha (somente arquivos CSV)	Todo arquivo deve ter um cabeçalho na primeira linha com os nomes das colunas. A primeira linha de qualquer arquivo é considerada a linha de cabeçalho e apresentará esses valores como colunas disponíveis para seleção. Arquivos com os mesmos valores de cabeçalho da primeira linha, se você incluir vários arquivos em uma tabela. O Amazon S3 permite que você mapeie vários arquivos para uma única tabela de destino. Os valores da linha do cabeçalho são usados para determinar o esquema de uma tabela. Para obter os melhores resultados, cada arquivo deve ter os mesmos valores de linha de cabeçalho. Isso é diferente de configurar várias tabelas. Consulte Definindo o padrão de pesquisa para obter exemplos.
Tipos de arquivo	CSV (`.csv`) Texto (`.txt`) JSONL (`.jsonl`) Parquet (`.parquet`) Arvo (`.arvo`) Os arquivos Avro devem incluir um esquema para serem aceitos.
Tipos de compactação	Esses arquivos devem ser compactados corretamente ou ocorrerão erros durante a extração. arquivos compactados com gzip (`.gz`)
Delimitadores (somente arquivos CSV)	Vírgula (`,`) Tabulação (`/t`) Barra vertical (`\|`) Ponto e vírgula (`;`)
Codificação de caracteres	UTF-8 (`.csv`, `.txt` e `.jsonl` apenas) Nota informativaOs arquivos `.parquet` e `.arvo` são arquivos binários brutos.

Criando a conexão

Para obter mais informações, consulte Conectando-se a aplicativos SAP.

Preencha as propriedades de conexão obrigatórias.
Forneça um nome para a conexão em Nome da conexão.
Selecione Abrir metadados de conexão para definir metadados para a conexão quando ela for criada.
Clique em Criar.

Configurações de conexão
Configuração	Descrição
Gateway de dados	Selecione um Gateway Data Movement se for necessário para seu caso de uso. Nota informativa Esse campo não está disponível com a assinatura do Iniciante do Qlik Talend Cloud, pois esta não é compatível com o Gateway Data Movement. Se você tiver outro nível de assinatura e não quiser usar o Gateway Data Movement, selecione Nenhum. Para obter informações sobre os benefícios do Gateway Data Movement e casos de uso que exigem isso, consulte Qlik Data Gateway - Movimentação de dados.
Data inicial	Digite a data, no formato `MM/DD/YYYY`, a partir da qual os dados devem ser replicados da fonte de dados para o destino.
Compartimento S3	Nome do compartimento S3.
ID da conta da AWS	O ID da conta AWS da conta em que o compartimento existe. O ID da conta AWS pode ser encontrado no Console de Gerenciamento da AWS em Detalhes da conta.
Padrão de pesquisa	Digite os arquivos a serem incluídos em sua tabela. Você pode inserir um único nome de arquivo ou uma expressão regular. Exemplo: `users\.csvproducts\.jsonl`.
Diretório	Limite a pesquisa nesse caminho de diretório. Quando definido, apenas os arquivos nessa localização serão pesquisados e serão selecionados aqueles que corresponderem ao padrão de pesquisa. Você não pode usar uma expressão regular. Exemplo: csv-exports-folder ou employee_jsonl_exports.
Configuração da tabela Configure uma tabela especificando os arquivos que deseja incluir. Você pode configurar várias tabelas.
Nome da tabela	Nome da tabela. Cada destino tem suas próprias regras sobre como as tabelas podem ser nomeadas. Por exemplo, os nomes de tabelas do Amazon Redshift não podem exceder 127 caracteres.
Chave primária	Digite a chave primária para identificar linhas ou registros exclusivos. Quando você inserir mais de uma chave, use vírgulas para separar os valores. Para arquivos CSV, insira os campos de cabeçalho ou os nomes das colunas. Para arquivos JSONL, digite os nomes dos atributos ou as chaves dos objetos. Exemplo: id, name.
Especificar campos de data e hora	Digite os valores que devem aparecer como datetime em vez de string em sua tabela. Exemplo: created_at, modified_at.
Delimitador	Selecione o delimitador na lista suspensa.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui