Amazon S3

Amazon Simple Storage Service (Amazon S3) is een objectopslagdienst die toonaangevende schaalbaarheid, beschikbaarheid van gegevens, beveiliging en prestaties biedt.

Een beknopt overzicht van deze connector, inclusief nuttige koppelingen en ondersteunde functies.

Functie/mogelijkheden	Ondersteuningsdetails
Ondersteunde Qlik Talend Data Integration-projecten	Alleen replicatieprojecten. Gegevenspijplijnprojecten worden niet ondersteund.
Bijwerkmethoden doel	Replicatietaken: Wijzigingen toepassen Wijzigingen opslaan Gegevens tijdelijk opslaan in een datalaketaak: Vastleggen van wijzigingsgegevens (CDC)
Metagegevens beheren	Handmatig metagegevens genereren is niet nodig.
Instellingen voor replicatie	Alleen de bewerking Type kolomgegevens wijzigen wordt ondersteund.
Replicatie van LOB-kolommen (NCLOB, CLOB en BLOB)	Niet ondersteund.
Gepland CDC	Vereist. Zo wordt het doel up-to-date gehouden met wijzigingen in de bron. Voor replicatietaken raadpleegt u Instellingen voor replicatie Voor tussenopslagtaken voor lake, raadpleegt u CDC plannen voor lake-tussenopslagtaken
Meldingen	Gedeeltelijk ondersteund Meldingen instellen voor wijzigingen van de bewerking
Bewaking	Alleen CDC, omdat volledige lading niet relevant is voor deze connector. Een afzonderlijke datataak monitoren
Automatisch denesten van nettoladingen van JSON-kolommen	Niet ondersteund. Nettoladingen van JSON-kolommen in brongegevensverzamelingen worden niet automatisch gedenest op het doel.

Voorbereiden op authenticatie

Om toegang te krijgen tot uw gegevens, moet u de verbinding verifiiëren met uw accountgegevens.

Zorg dat het account dat u gebruikt leestoegang heeft voor de tabellen die u wilt ophalen.

Om verbinding te maken met Amazon S3 hebt u machtigingen nodig in AWS Identity Access Management (IAM) waarmee u beleidsregels kunt maken, rollen kunt maken en beleidsregels aan rollen kunt koppelen. Dit is nodig om de autorisatie voor uw S3-bucket te verlenen:

Een IAM-beleid maken.
Een IAM-rol maken.

Een IAM-beleid maken

Een IAM-beleid is een op JSON gebaseerde taal voor toegangsbeleid om machtigingen voor bucketresources te beheren.

Amazon S3-machtigingen
Machtigingsnaam	Bewerking	Beschrijving
s3:GetObject	GET Object	Hiermee kunnen objecten uit Amazon S3 worden opgehaald.
s3:GetObject	HEAD Object	Hiermee kunnen metagegevens van een object worden opgehaald zonder dat het object zelf wordt geretourneerd.
s3:ListBucket	GET Bucket (List Objects)	Hiermee kunnen sommige of alle (tot 1000) objecten in een bucket worden geretourneerd.
s3:ListBucket	HEAD Bucket	Wordt gebruikt om te bepalen of een bucket bestaat en of toegang is toegestaan.

Om het IAM-beleid aan te maken:

Navigeer naar de IAM-service in AWS door op het menu Services te klikken en IAM in te typen.
Klik op IAM zodra het in de resultaten wordt weergegeven.
Klik op Beleid in het menu aan de linkerkant van de pagina.
Klik op Beleid maken.
Klik op de pagina Beleid maken op het tabblad JSON.
Selecteer alles wat momenteel in het tekstveld staat en verwijder het.

Plak in het tekstveld de volgende JSON en vervang MyBucketName door de naam van uw bucket:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

Klik op Beleid controleren.
Geef het beleid een naam op de pagina Beleid controleren. Bijvoorbeeld: qlik_amazon_s3.
Klik op Beleid maken.

Een IAM-rol maken

Om deze stap te voltooien, hebt u de volgende AWS IAM-machtigingen nodig: CreateRole en AttachRolePolicy. Raadpleeg de documentatie van Amazon voor meer informatie.

Als u meerdere Amazon S3-integraties aanmaakt, moet u deze stap uitvoeren voor elke integratie waarmee u verbinding maakt.

Navigeer in AWS naar de pagina IAM-rollen.
Klik op Rol maken.
Op de pagina Rol maken:
1. Klik in de sectie Type vertrouwde entiteit selecteren de optie Ander AWS-account.
2. Plak 338144066592 in het veld Account-id.
3. Schakel in de sectie Opties het selectievakje Externe id vereisen in.
4. Plak in het veld Externe id dat verschijnt qlik_connection_<tenant-id> en vervang <tenant-id> door uw tenant-id.
  Om uw tenant-id te vinden, gaat u naar Tenantgegevens vinden.
5. Klik op Volgende: machtigingen.
Op de pagina Machtigingen bijvoegen:
1. Zoek naar het beleid dat u hebt aangemaakt in het gedeelte Een IAM-beleid maken.
2. Als u het beleid hebt gevonden, vinkt u het vakje ernaast in de tabel aan.
3. Klik op Volgende: tags.
Als u tags wilt invoeren, kunt u dat doen op de pagina Tags toevoegen. Klik anders op Volgende: controle.
Op de pagina Controle:
1. Plak in het veld Rolnaam qlik_s3_<tenant-id> en vervang <tenant-id> door uw tenant-id.
  Om uw tenant-id te vinden, gaat u naar Tenantgegevens vinden.
2. Voer desgewenst in het veld Rolbeschrijving een beschrijving in. Bijvoorbeeld: Qlik role for Amazon S3 integration.
3. Klik op Rol maken.

Het zoekpatroon definiëren

Het veld Zoekpatroon definieert de zoekcriteria die Qlik moet gebruiken voor het selecteren en repliceren van bestanden. Dit veld accepteert reguliere expressies die gebruikt kunnen worden om een enkel bestand of meerdere bestanden op te nemen.

Houd bij het maken van een zoekpatroon rekening met het volgende:

Wanneer u meerdere bestanden voor één tabel opneemt, moet elk bestand dezelfde waarden voor de koprijen hebben.
Speciale tekens zoals punten (.) hebben een speciale betekenis in reguliere expressies. Om precies overeen te komen, moet er een wisselteken worden gebruikt. Bijvoorbeeld: .\
Qlik gebruikt Python voor reguliere uitdrukkingen, waarvan de syntaxis kan verschillen van andere varianten. Probeer PyRegex te gebruiken om uw expressies te testen voordat u de integratie opslaat.
Parquet (.parquet) en Arvo (.arvo) zoekpatronen worden ook ondersteund.
Zoekpatronen moeten rekening houden met de manier waarop gegevens in bestanden worden bijgewerkt. Kijk eens naar deze voorbeelden:

Scenario	Eén bestand, periodiek bijgewerkt	Meerdere bestanden, dagelijks gegenereerd
Hoe updates worden gemaakt	Een enkel JSONL-bestand wordt periodiek bijgewerkt met nieuwe en bijgewerkte klantgegevens.	Elke dag wordt er een nieuw CSV-bestand aangemaakt dat nieuwe en bijgewerkte klantgegevens bevat. Oude bestanden worden nooit bijgewerkt nadat ze zijn aangemaakt.
Bestandsnaam	`customers.jsonl`	`customers-[STRING].csv`, waarbij `[STRING]` een unieke, willekeurige tekenreeks is
Zoekpatroon	Omdat er maar één bestand zal zijn, kunt u de exacte naam van het bestand in uw S3-bucket invoeren: `customers\.jsonl`	Om ervoor te zorgen dat nieuwe en bijgewerkte bestanden worden geïdentificeerd, wilt u een zoekpatroon invoeren dat overeenkomt met alle bestanden die beginnen met `customers`, ongeacht de tekenreeks in de bestandsnaam: `(customers-).*\.csv`
Overeenkomsten	`customer.jsonl`, precies	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` enzovoort.

Bestandsvereisten

Eerste-rij koptekst (alleen CSV-bestanden)	Elk bestand moet een kopregel in de eerste rij hebben die kolomnamen bevat. De eerste rij in een bestand wordt beschouwd als de koptekstrij, en zal deze waarden presenteren als kolommen die beschikbaar zijn voor selectie. Bestanden met dezelfde koptekstwaarden in de eerste rij, als er meerdere bestanden in een tabel staan. Met een Amazon S3-integratie kunt u meerdere bestanden toewijzen aan één doeltabel. De waarden van de koptekstrij worden gebruikt om het schema van een tabel te bepalen. Voor de beste resultaten moet elk bestand dezelfde waarden voor de koptekstrij hebben. Dit is anders dan het configureren van meerdere tabellen. Zie Het zoekpatroon definiëren voor voorbeelden.
Bestandstypen	CSV (`.csv`) Text (`.txt`) JSONL (`.jsonl`) Parquet (`.parquet`) Arvo (`.arvo`) Arvo-bestanden moeten een schema bevatten om te worden ondersteund.
Typen compressie	Deze bestanden moeten correct gecomprimeerd zijn, anders treden er fouten op tijdens het uitpakken. gzip gecomprimeerde bestanden (`.gz`)
Scheidingstekens (alleen CSV-bestanden)	Komma (`,`) Tab (`/t`) Sluisteken (`\|`) Puntkomma (`;`)
Tekencodering	UTF-8 (alleen `.csv`, `.txt` en `.jsonl`) Informatie`.parquet`- en `.arvo`-bestanden zijn onbewerkte binaire bestanden.

De verbinding maken

Ga voor meer informatie naar Verbinding maken met SaaS-applicaties.

Vul de vereiste verbindingseigenschappen in.
Geef in Verbindingsnaam een naam voor de verbinding op.
Selecteer Metagegevens verbinding openen om metagegevens te definiëren voor de verbinding nadat deze is gemaakt.
Klik op Maken.

Verbindingsinstellingen
Instelling	Beschrijving
Gegevensgateway	Selecteer een Data Movement gateway als dit is vereist voor uw usecase. Informatie Dit veld is niet beschikbaar met het Qlik Talend Cloud Starter-abonnement, omdat het geen ondersteuning biedt voor Data Movement gateway. Als u een ander abonnementsniveau hebt en Data Movement gateway niet wilt gebruiken, selecteer dan Geen. Raadpleeg Qlik Gegevensgateway - Gegevensverplaatsing voor informatie over de voordelen van Data Movement gateway en usecases waarvoor deze is vereist.
Begindatum	Voer de datum in, in het formaat `MM/DD/YYYY`, vanaf wanneer de gegevens van uw gegevensbron naar uw doel moeten worden gerepliceerd.
S3-bucket	Naam van de S3-bucket.
AWS account-id	De AWS account-id van het account waar de bucket bestaat. U kunt uw AWS account-id vinden in de AWS Beheerconsole onder Accountgegevens.
Zoekpatroon	Voer de bestanden in die u in uw tabel wilt opnemen. U kunt een enkele bestandsnaam of een reguliere expressie invoeren. Voorbeeld: `users\.csvproducts\.jsonl`.
Directory	Beperk het zoeken in dit directorypad. Indien gedefinieerd, worden alleen bestanden op deze locatie doorzocht en worden alleen die bestanden geselecteerd die overeenkomen met het zoekpatroon. U kunt geen reguliere expressies gebruiken. Voorbeeld: csv-exports-folder of employee_jsonl_exports.
Tabelconfiguratie Configureer een tabel door bestanden op te geven die u wilt opnemen. U kunt meerdere tabellen configureren.
Tabelnaam	Tabelnaam. Elk doel heeft zijn eigen regels voor de naam van tabellen. Amazon Redshift-tabelnamen mogen bijvoorbeeld niet langer zijn dan 127 tekens.
Primaire sleutel	Voer de primaire sleutel in om unieke rijen of records te identificeren. Als u meer dan één sleutel invoert, gebruik dan een komma om de waarden te scheiden. Voer voor CSV-bestanden de kopvelden of kolomnamen in. Voer voor JSONL-bestanden de kenmerknamen of objectsleutels in. Voorbeeld: id, naam.
Datum/tijd-velden opgeven	Voer de waarden in die als datum/tijd in plaats van tekenreeks in uw tabel moeten verschijnen. Voorbeeld: created_at, modified_at.
Scheidingsteken	Selecteer het scheidingsteken in de vervolgkeuzelijst.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback