Ir para conteúdo principal Pular para conteúdo complementar

Amazon S3  

O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e desempenho líderes do setor.

Preparando para autenticação

Para acessar seus dados, você precisa autenticar a conexão com as credenciais da sua conta.

Nota informativaCertifique-se de que a conta que você usa tenha acesso de leitura às tabelas que deseja buscar.

Para se conectar ao Amazon S3, você precisa de permissões no AWS Identity Access Management (IAM) que lhe permitam criar políticas, criar funções e anexar políticas a funções. Isso é necessário para conceder a autorização ao seu compartimento S3:

Criando uma política do IAM

Uma política do IAM é uma linguagem de política de acesso baseada em JSON para gerenciar permissões para recursos de compartimento.

Permissões do Amazon S3
Nome da permissão Operação Descrição
s3:GetObject Objeto GET

Permite a recuperação de objetos do Amazon S3.

s3:GetObjectObjeto HEAD

Permite a recuperação de metadados de um objeto sem retornar o objeto em si.

s3:ListBucket Compartimento GET (objetos de lista)

Permite o retorno de alguns ou de todos (até 1.000) os objetos em um compartimento.

s3:ListBucket Compartimento HEAD

Usado para determinar se um compartimento existe e se o acesso é permitido.

Para criar a política do IAM:

  1. No AWS, navegue até o serviço do IAM clicando no menu Serviços e digitando IAM.
  2. Clique em IAM quando ele for exibido nos resultados.
  3. Clique em Políticas no menu do lado esquerdo da página.
  4. Clique em Criar política.
  5. Na página Criar política, clique na guia JSON.
  6. Selecione tudo o que estiver no campo de texto e exclua-o.
  7. No campo de texto, cole o JSON a seguir e substitua MyBucketName pelo nome do seu compartimento:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "",
                "Effect": "Allow",
                "Action": [
                "s3:GetObject",
                "s3:ListBucket"
                ],
                "Resource": [
                "arn:aws:s3:::MyBucketName",
                "arn:aws:s3:::MyBucketName/*"
                ]
            }
        ]
    }
  8. Clique em Revisar política.
  9. Na página Revisar política, dê um nome à política. Por exemplo: qlik_amazon_s3.
  10. Clique em Criar política.

Criando uma função IAM

Nota informativa

Para concluir esta etapa, você precisa das seguintes permissões do AWS IAM: CreateRole e AttachRolePolicy. Consulte a documentação da Amazon para obter mais informações.

Se estiver criando várias integrações do Amazon S3, você precisará concluir esta etapa para cada integração que estiver conectando.

  1. No AWS, navegue até a página Funções do IAM.
  2. Clique em Criar função.
  3. Na página Criar função:
    1. Na seção Selecionar tipo de entidade confiável, clique na opção Outra conta da AWS.
    2. No campo ID da conta, cole 338144066592.
    3. Na seção Opções, marque a caixa de seleção Exigir ID externo.
    4. No campo ID externo exibido, cole qlik_connection_<tenant-id> e substitua <tenant-id> pelo seu ID do locatário.

      Para encontrar o ID do locatário, consulte Localizar informações do locatário.

    5. Clique em Avançar: Permissões.
  4. Na página Anexar permissões:
    1. Procure a política que você criou em Criando uma política do IAM.
    2. Uma vez localizada, marque a caixa ao lado dela na tabela.
    3. Clique em Avançar: Tags.
  5. Se quiser inserir alguma tag, faça-o na página Adicionar tags. Caso contrário, clique em Avançar: Revisar.
  6. Na página Revisar:
    1. No campo Nome da função, cole qlik_s3_<tenant-id> e substitua <tenant-id> pelo seu ID do locatário.

      Para encontrar o ID do locatário, consulte Localizar informações do locatário.

    2. Insira uma descrição no campo Descrição da função. Por exemplo: Qlik role for Amazon S3 integration.
    3. Clique em Criar função.

Definindo o padrão de pesquisa

O campo Padrão de Pesquisa define os critérios de busca que o Qlik deve usar para selecionar e replicar arquivos. Esse campo aceita expressões regulares, que podem ser usadas para incluir um único arquivo ou vários arquivos.

Ao criar um padrão de pesquisa, tenha em mente o seguinte:

  • Ao incluir vários arquivos para uma única tabela, cada arquivo deve ter os mesmos valores de linha de cabeçalho.
  • Caracteres especiais, como pontos (.), têm um significado especial em expressões regulares. Para corresponder exatamente, eles precisarão ser caracteres de escape. Por exemplo: .\
  • O Qlik usa Python para expressões regulares, cuja sintaxe pode variar em relação a outras variedades. Tente usar o PyRegex para testar suas expressões antes de salvar a integração.
  • Os padrões de pesquisa devem levar em conta como os dados nos arquivos são atualizados. Considere estes exemplos:
Cenário Arquivo único, atualizado periodicamente Vários arquivos, gerados diariamente
Como são feitas as atualizações Um único arquivo JSONL é atualizado periodicamente com dados de clientes novos e atualizados. Todos os dias é criado um novo arquivo CSV que contém dados novos e atualizados dos clientes. Os arquivos antigos nunca são atualizados após serem criados.
Nome do arquivo customers.jsonl customers-[STRING].csv, em que [STRING] é uma string aleatória exclusiva
Padrão de pesquisa

Como haverá apenas um arquivo, você pode inserir o nome exato do arquivo no seu compartimento S3:

customers\.jsonl

Para garantir que os arquivos novos e atualizados sejam identificados, você deve inserir um padrão de busca que corresponda a todos os arquivos que começam com customers, independentemente dos caracteres de busca no nome do arquivo:

(customers-).*\.csv
Corresponde customer.jsonl, exatamente
  • customers-reQDSwNG6U.csv
  • customers-xaPTXfN4tD.csv
  • customers-MBJMhCbNCp.csv
  • etc.

Requisitos do arquivo

Cabeçalho da primeira linha (somente arquivos CSV)
  • Todo arquivo deve ter um cabeçalho na primeira linha com os nomes das colunas. A primeira linha de qualquer arquivo é considerada a linha de cabeçalho e apresentará esses valores como colunas disponíveis para seleção.
  • Arquivos com os mesmos valores de cabeçalho da primeira linha, se você incluir vários arquivos em uma tabela. O Amazon S3 permite que você mapeie vários arquivos para uma única tabela de destino. Os valores da linha do cabeçalho são usados para determinar o esquema de uma tabela. Para obter os melhores resultados, cada arquivo deve ter os mesmos valores de linha de cabeçalho.

    Isso é diferente de configurar várias tabelas. Consulte Definindo o padrão de pesquisa para obter exemplos.

Tipos de arquivo
  • CSV (.csv)
  • Texto (.txt)
  • JSONL (.jsonl)
Tipos de compactação

Esses arquivos devem ser compactados corretamente ou ocorrerão erros durante a extração.

  • arquivos compactados com gzip (.gz)
Delimitadores (somente arquivos CSV)
  • Vírgula (,)
  • Tabulação (/t)
  • Barra vertical (|)
  • Ponto e vírgula (;)
Codificação de caracteres

UTF-8

Criando a conexão

Para obter mais informações, consulte Conectando-se a aplicativos SAP.

  1. Preencha as propriedades de conexão obrigatórias.
  2. Forneça um nome para a conexão em Nome da conexão.

  3. Selecione Abrir metadados de conexão para definir metadados para a conexão quando ela for criada.

  4. Clique em Criar.

Configurações de conexão
Configuração Descrição
Gateway de dados

Selecione um Data Movement gateway se for necessário para seu caso de uso.

Nota informativa

Esse campo não está disponível com a assinatura do Iniciante do Qlik Talend Cloud, pois esta não é compatível com o Data Movement gateway. Se você tiver outro nível de assinatura e não quiser usar o Data Movement gateway, selecione Nenhum.

Para obter informações sobre os benefícios do Data Movement gateway e casos de uso que exigem isso, consulte Qlik Data Gateway - Data Movement.

Data inicial

Digite a data, no formato MM/DD/YYYY, a partir da qual os dados devem ser replicados da fonte de dados para o destino.

Compartimento S3 Nome do compartimento S3.
ID da conta da AWS

O ID da conta AWS da conta em que o compartimento existe.

O ID da conta AWS pode ser encontrado no Console de Gerenciamento da AWS em Detalhes da conta.

Padrão de pesquisa Digite os arquivos a serem incluídos em sua tabela. Você pode inserir um único nome de arquivo ou uma expressão regular.

Exemplo: users\*.csvproducts\*.jsonl.

Diretório Limite a pesquisa nesse caminho de diretório. Quando definido, apenas os arquivos nessa localização serão pesquisados e serão selecionados aqueles que corresponderem ao padrão de pesquisa. Você não pode usar uma expressão regular.

Exemplo: csv-exports-folder ou employee_jsonl_exports.

Configuração da tabela

Configure uma tabela especificando os arquivos que deseja incluir.

Você pode configurar várias tabelas.

Nome da tabela Nome da tabela.

Cada destino tem suas próprias regras sobre como as tabelas podem ser nomeadas. Por exemplo, os nomes de tabelas do Amazon Redshift não podem exceder 127 caracteres.

Chave primária Digite a chave primária para identificar linhas ou registros exclusivos. Quando você inserir mais de uma chave, use vírgulas para separar os valores.
  • Para arquivos CSV, insira os campos de cabeçalho ou os nomes das colunas.
  • Para arquivos JSONL, digite os nomes dos atributos ou as chaves dos objetos.

Exemplo: id, name.

Especificar campos de data e hora Digite os valores que devem aparecer como datetime em vez de string em sua tabela.

Exemplo: created_at, modified_at.

Delimitador Selecione o delimitador na lista suspensa.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!