Amazon S3

Amazon Simple Storage Service (Amazon S3) är en objektlagringstjänst som erbjuder branschledande skalbarhet, datatillgänglighet, säkerhet och prestanda.

Förberedelser för autentisering

För att komma åt dina -data måste du autentisera anslutningen med dina kontouppgifter.

Kontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att kunna ansluta till Amazon S3 behöver du behörigheter i AWS Identity Access Management (IAM) så att du kan skapa policyer, skapa roller och koppla policyer till roller. Detta krävs för att ge behörighet till din S3-bucket:

Skapa en IAM-policy.
Skapa en IAM-roll.

Skapa en IAM-policy

En IAM-policy är ett JSON-baserat åtkomstpolicyspråk för att hantera behörigheter till resurser i bucket.

Amazon S3-behörigheter
Behörighetsnamn	Åtgärd	Beskrivning
s3:GetObject	GET Object	Gör det möjligt att hämta objekt från Amazon S3.
s3:GetObject	HEAD Object	Gör det möjligt att hämta metadata från ett objekt utan att returnera själva objektet.
s3:ListBucket	GET Bucket (List Objects)	Gör det möjligt att återlämna vissa eller alla (upp till 1 000) föremål i en bucket.
s3:ListBucket	HEAD Bucket	Används för att avgöra om en bucket finns och om åtkomst är tillåten.

Så här skapar du IAM-policyn:

I AWS navigerar du till IAM-tjänsten genom att klicka på Tjänster-menyn och skriva IAM.
Klicka på IAM när det visas i resultatet.
Klicka på Policyer i menyn till vänster på sidan.
Klicka på Skapa policy.
På sidan Skapa policy klickar du på fliken JSON.
Markera allt som för närvarande finns i textfältet och radera det.

I textfältet klistrar du in följande JSON och ersätter MyBucketName med namnet på din bucket:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

Klicka på Granska policy.
Ge policyn ett namn på sidan Granska policy. Till exempel: qlik_amazon_s3.
Klicka på Skapa policy.

Skapa en IAM-roll

För att slutföra det här steget behöver du följande AWS IAM-behörigheter: CreateRole och AttachRolePolicy. Se Amazons dokumentation för mer info.

Om du skapar flera Amazon S3-integrationer måste du slutföra det här steget för varje integration som du kopplar.

Navigera till sidan IAM-roller i AWS.
Klicka på Skapa roll.
På sidan Skapa roll:
1. I delavsnittet Välj typ av betrodd enhet klickar du på alternativet Ett annat AWS-konto.
2. Klistra in i fältet Konto-ID338144066592.
3. I delavsnittet Alternativ markerar du kryssrutan Kräv externt ID.
4. I fältet Externt ID som visas klistrar du in qlik_connection_<tenant-id> och ersätter <tenant-id> med ditt ID för klientorganisationen.
  För att hitta ditt ID för klientorganisationen, se Hitta information om klientorganisationen.
5. Klicka på Nästa: Behörigheter.
På sidan Bifoga behörigheter:
1. Sök efter den policy som du skapade i avsnittet Skapa en IAM-policy.
2. När du har hittat platsen kryssar du i rutan bredvid den i tabellen.
3. Klicka på Nästa: Taggar.
Om du vill ange några taggar gör du det på sidan Lägg till taggar. Annars klickar du på Nästa: Granska.
På sidan Granskning:
1. I fältet Rollnamn klistrar du in qlik_s3_<tenant-id> och ersätter <tenant-id> med ditt klientorganisations-ID.
  För att hitta ditt ID för klientorganisationen, se Hitta information om klientorganisationen.
2. Ange en beskrivning i fältet Rollbeskrivning. Till exempel: Qlik role for Amazon S3 integration.
3. Klicka på Skapa roll.

Definiera sökmönstret

Fältet Sökmönster definierar de sökkriterier som Qlik ska använda för att välja ut och replikera filer. Detta fält accepterar reguljära uttryck som kan användas för att inkludera en enskild fil eller flera filer.

När du skapar ett sökmönster ska du tänka på följande:

När flera filer inkluderas för en enda tabell bör varje fil ha samma värden för rubrikraderna.
Specialtecken som t.ex. punkter (.) har en särskild betydelse i reguljära uttryck. För att matcha exakt måste de undantas. Till exempel: .\
Qlik använder Python för reguljära uttryck, som kan ha en annan syntax än andra varianter. Försök att använda PyRegex för att testa dina uttryck innan du sparar integrationen.
Parquet (.parquet) och Arvo (.arvo) sökmönster stöds också.
Sökmönster bör ta hänsyn till hur data i filer uppdateras. Ta följande exempel:

Scenario	Enkel fil, uppdateras regelbundet	Flera filer, genereras dagligen
Hur uppdateringar görs	En enda JSONL-fil uppdateras regelbundet med nya och uppdaterade kunddata.	En ny CSV-fil skapas varje dag som innehåller nya och uppdaterade kunddata. Gamla filer uppdateras aldrig efter att de har skapats.
Filnamn	`customers.jsonl`	`customers-[STRING].csv`, där `[STRING]` är en unik, slumpmässig sträng
Sökmönster	Eftersom det alltid bara kommer att finnas en fil kan du ange det exakta namnet på filen i din S3-bucket: `customers\.jsonl`	För att säkerställa att nya och uppdaterade filer identifieras ska du ange ett sökmönster som matchar alla filer som börjar med `customers`, oavsett strängen i filnamnet: `(customers-).*\.csv`
Matchningar	`customer.jsonl`, exakt	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` osv.

Filkrav

Rubrik på första raden (endast CSV-filer)	Varje fil måste ha en rubrik på första raden som innehåller kolumnnamn. Den första raden i en fil betraktas som rubrikraden och visar dessa värden som kolumner som är tillgängliga för val. Filer med samma rubrikvärden på första raden, om du inkluderar flera filer i en tabell. Amazon S3-integration gör att du kan mappa flera filer till en enda måltabell. Värdena för rubrikraderna används för att bestämma en tabells schema. För bästa resultat bör varje fil ha samma värden på rubrikraderna. Detta skiljer sig från att konfigurera flera tabeller. Se Definiera sökmönster för exempel.
Filtyper	CSV (`.csv`) Text (`.txt`) JSONL (`.jsonl`) Parquet (`.parquet`) Arvo (`.arvo`) Avro-filer måste inkludera ett schema för att kunna stödjas.
Kompressionstyper	Dessa filer måste vara korrekt komprimerade, annars uppstår fel vid extraktionen. gzip-komprimerade filer (`.gz`)
Avgränsningstecken (endast CSV-filer)	Kommatecken (`,`) Tabb (`/t`) Lodrätt streck (`\|`) Semikolon (`;`)
Teckenkodning	UTF-8 (`.csv`, `.txt` och `.jsonl` endast) Anteckning om information`.parquet` och `.arvo` filer är råa binärfiler.

Skapa kopplingen

Mer information finns i Koppla till SaaS-program.

Ange de kopplingsegenskaper som krävs.
Ange ett namn på kopplingen i Kopplingsnamn.
Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.
Klicka på Skapa.

Inställningar för anslutning
Inställning	Beskrivning
Datagateway	Välj en Gateway för dataflytt om det krävs för ditt användningsfall. Anteckning om information Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget. Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt.
Startdatum	Ange det datum, i formatet `MM/DD/YYYY`, från vilket data måste replikeras från din källa till ditt mål.
S3-bucket	Namn på S3-bucket.
AWS-konto-ID	AWS-konto-ID för det konto där bucket finns. Du hittar ditt AWS-konto-ID i AWS Hanteringskonsol under Kontouppgifter.
Sökmönster	Ange vilka filer som ska ingå i tabellen. Du kan ange ett enskilt filnamn eller ett reguljärt uttryck. Exempel: `users\.csvproducts\.jsonl`.
Katalog	Begränsa sökningen i den här katalogvägen. När detta är definierat kommer endast filer på denna plats att genomsökas och de som matchar sökmönstret kommer att väljas. Du kan inte använda ett reguljärt uttryck. Exempel: csv-exports-folder eller employee_jsonl_exports.
Konfiguration av tabellen Konfigurera en tabell genom att ange vilka filer du vill inkludera. Du kan konfigurera flera tabeller.
Tabellnamn	Tabellens namn. Varje mål har sina egna regler för hur tabeller kan namnges. Exempelvis får Amazon Redshift-tabellnamn inte överstiga 127 tecken.
Primärnyckel	Ange den primära nyckeln för att identifiera unika rader eller poster. När du anger mer än en nyckel ska du använda kommatecken för att separera värdena. För CSV-filer ska du ange namn på rubrikfält eller kolumner. För JSONL-filer anger du attributnamnen eller objektnycklarna. Exempel: id, namn.
Ange datum och tid-fält	Ange de värden som måste visas som datum och tid i stället för sträng i din tabell. Exempel: created_at, modified_at.
Avgränsare	Välj avgränsaren från listrutan.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här