Gå till huvudinnehåll Gå till ytterligare innehåll

Amazon S3  

Amazon Simple Storage Service (Amazon S3) är en objektlagringstjänst som erbjuder branschledande skalbarhet, datatillgänglighet, säkerhet och prestanda.

Förberedelser för autentisering

För att komma åt dina data måste du autentisera kopplingen med dina kontouppgifter.

Anteckning om informationKontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att kunna ansluta till Amazon S3 behöver du behörigheter i AWS Identity Access Management (IAM) så att du kan skapa policyer, skapa roller och koppla policyer till roller. Detta krävs för att ge behörighet till din S3-bucket:

Skapa en IAM-policy

En IAM-policy är ett JSON-baserat åtkomstpolicyspråk för att hantera behörigheter till resurser i bucket.

Amazon S3-behörigheter
Behörighetsnamn Åtgärd Beskrivning
s3:GetObject GET Object

Gör det möjligt att hämta objekt från Amazon S3.

s3:GetObjectHEAD Object

Gör det möjligt att hämta metadata från ett objekt utan att returnera själva objektet.

s3:ListBucket GET Bucket (List Objects)

Gör det möjligt att återlämna vissa eller alla (upp till 1 000) föremål i en bucket.

s3:ListBucket HEAD Bucket

Används för att avgöra om en bucket finns och om åtkomst är tillåten.

Så här skapar du IAM-policyn:

  1. I AWS navigerar du till IAM-tjänsten genom att klicka på Tjänster menyn och skriva IAM.
  2. Klicka på IAM när det visas i resultatet.
  3. Klicka på Policyer i menyn till vänster på sidan.
  4. Klicka på Skapa policy.
  5. På sidan Skapa policy klickar du på fliken JSON.
  6. Markera allt som för närvarande finns i textfältet och radera det.
  7. I textfältet klistrar du in följande JSON och ersätter MyBucketName med namnet på din bucket:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "",
                "Effect": "Allow",
                "Action": [
                "s3:GetObject",
                "s3:ListBucket"
                ],
                "Resource": [
                "arn:aws:s3:::MyBucketName",
                "arn:aws:s3:::MyBucketName/*"
                ]
            }
        ]
    }
  8. Klicka på Granska policy.
  9. Ge policyn ett namn på sidan Granska policy. Till exempel: qlik_amazon_s3.
  10. Klicka på Skapa policy.

Skapa en IAM-roll

Anteckning om information

För att slutföra det här steget behöver du följande AWS IAM-behörigheter: CreateRole och AttachRolePolicy. Se Amazons dokumentation för mer info.

Om du skapar flera Amazon S3-integrationer måste du slutföra det här steget för varje integration som du kopplar.

  1. Navigera till sidan IAM-roller i AWS.
  2. Klicka på Skapa roll.
  3. På sidan Skapa roll:
    1. I delavsnittet Välj typ av betrodd enhet klickar du på alternativet Ett annat AWS-konto.
    2. Klistra in 338144066592 i fältet Konto-ID.
    3. I delavsnittet Alternativ markerar du kryssrutan Kräv externt ID.
    4. I fältet Externt ID som visas klistrar du in qlik_connection_<tenant-id> och ersätter <tenant-id> med ditt ID för klientorganisationen.

      För att hitta ditt ID för klientorganisationen, se Hitta information om klientorganisationen.

    5. Klicka på Nästa: Behörigheter.
  4. På sidan Bifoga behörigheter:
    1. Sök efter den policy som du skapade i avsnittet Skapa en IAM-policy.
    2. När du har hittat platsen kryssar du i rutan bredvid den i tabellen.
    3. Klicka på Nästa: Taggar.
  5. Om du vill ange några taggar gör du det på sidan Lägg till taggar. Annars klickar du på Nästa: Granska.
  6. På sidan Granskning:
    1. I fältet Rollnamn klistrar du in qlik_s3_<tenant-id> och ersätter <tenant-id> med ditt klientorganisations-ID.

      För att hitta ditt ID för klientorganisationen, se Hitta information om klientorganisationen.

    2. Ange en beskrivning i fältet Rollbeskrivning. Till exempel: Qlik role for Amazon S3 integration.
    3. Klicka på Skapa roll.

Definiera sökmönstret

Fältet Sökmönster definierar de sökkriterier som Qlik ska använda för att välja ut och replikera filer. Detta fält accepterar reguljära uttryck som kan användas för att inkludera en enskild fil eller flera filer.

När du skapar ett sökmönster ska du tänka på följande:

  • När flera filer inkluderas för en enda tabell bör varje fil ha samma värden för rubrikraderna.
  • Specialtecken som t.ex. punkter (.) har en särskild betydelse i reguljära uttryck. För att matcha exakt måste de undantas. Till exempel: .\
  • Qlik använder Python för reguljära uttryck, som kan ha en annan syntax än andra varianter. Försök att använda PyRegex för att testa dina uttryck innan du sparar integrationen.
  • Sökmönster bör ta hänsyn till hur data i filer uppdateras. Ta följande exempel:
Scenario Enkel fil, uppdateras regelbundet Flera filer, genereras dagligen
Hur uppdateringar görs En enda JSONL-fil uppdateras regelbundet med nya och uppdaterade kunddata. En ny CSV-fil skapas varje dag som innehåller nya och uppdaterade kunddata. Gamla filer uppdateras aldrig efter att de har skapats.
Filnamn customers.jsonl customers-[STRING].csv, där [STRING] är en unik, slumpmässig sträng
Sökmönster

Eftersom det alltid bara kommer att finnas en fil kan du ange det exakta namnet på filen i din S3-bucket:

customers\.jsonl

För att säkerställa att nya och uppdaterade filer identifieras ska du ange ett sökmönster som matchar alla filer som börjar med customers, oavsett strängen i filnamnet:

(customers-).*\.csv
Matchningar customer.jsonl, exakt
  • customers-reQDSwNG6U.csv
  • customers-xaPTXfN4tD.csv
  • customers-MBJMhCbNCp.csv
  • osv.

Filkrav

Rubrik på första raden (endast CSV-filer)
  • Varje fil måste ha en rubrik på första raden som innehåller kolumnnamn. Den första raden i en fil betraktas som rubrikraden och visar dessa värden som kolumner som är tillgängliga för val.
  • Filer med samma rubrikvärden på första raden, om flera filer ingår i en tabell. Amazon S3-integration gör att du kan mappa flera filer till en enda måltabell. Värdena för rubrikraderna används för att bestämma en tabells schema. För bästa resultat bör varje fil ha samma värden på rubrikraderna.

    Detta skiljer sig från att konfigurera flera tabeller. Se Definiera sökmönster för exempel.

Filtyper
  • CSV (.csv)
  • Text (.txt)
  • JSONL (.jsonl)
Kompressionstyper

Dessa filer måste vara korrekt komprimerade, annars uppstår fel vid extraktionen.

  • gzip-komprimerade filer (.gz)
Avgränsningstecken (endast CSV-filer)
  • Kommatecken (,)
  • Tabb (/t)
  • Lodrätt streck (|)
  • Semikolon (;)
Teckenkodning

UTF-8

Skapa kopplingen

Mer information finns i Koppla till SaaS-program.

  1. Ange de kopplingsegenskaper som krävs.
  2. Ange ett namn på kopplingen i Kopplingsnamn.

  3. Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.

  4. Klicka på Skapa.

Inställningar för anslutning
Inställning Beskrivning
Datagateway

Välj en Data Movement gateway om det krävs för ditt användningsfall.

Anteckning om information

Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Data Movement gateway. Om du har en annan prenumerationsnivå och inte vill använda Data Movement gateway väljer du Inget.

Information om fördelarna med Data Movement gateway och användningsfall som kräver det finns i Qlik Data Gateway - Data Movement.

Startdatum

Ange det datum, i formatet MM/DD/YYYY, från vilket data måste replikeras från din källa till ditt mål.

S3-bucket Namn på S3-bucket.
AWS-konto-ID

AWS-konto-ID för det konto där bucket finns.

Du hittar ditt AWS-konto-ID i AWS Hanteringskonsol under Kontouppgifter.

Sökmönster Ange vilka filer som ska ingå i tabellen. Du kan ange ett enskilt filnamn eller ett reguljärt uttryck.

Exempel: users\*.csvproducts\*.jsonl.

Katalog Begränsa sökningen i den här katalogvägen. När detta är definierat kommer endast filer på denna plats att genomsökas och de som matchar sökmönstret kommer att väljas. Du kan inte använda ett reguljärt uttryck.

Exempel: csv-exports-folder eller employee_jsonl_exports.

Konfiguration av tabellen

Konfigurera en tabell genom att ange vilka filer du vill inkludera.

Du kan konfigurera flera tabeller.

Tabellnamn Tabellnamn.

Varje mål har sina egna regler för hur tabeller kan namnges. Exempelvis får Amazon Redshift-tabellnamn inte överstiga 127 tecken.

Primärnyckel Ange den primära nyckeln för att identifiera unika rader eller poster. När du anger mer än en nyckel ska du använda kommatecken för att separera värdena.
  • För CSV-filer ska du ange namn på rubrikfält eller kolumner.
  • För JSONL-filer anger du attributnamnen eller objektnycklarna.

Exempel: id, namn.

Ange datum och tid-fält Ange de värden som måste visas som datum och tid i stället för sträng i din tabell.

Exempel: created_at, modified_at.

Avgränsare Välj avgränsaren från listrutan.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!