Amazon S3

Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti che offre prestazioni di scalabilità, disponibilità, sicurezza dei dati leader del settore.

Immagine di alto livello di questo connettore, inclusi collegamenti utili e funzionalità supportate.

Funzionalità/Capacità	Dettagli del supporto
Progetti Qlik Talend Data Integration supportati	Solo i progetti di replica. I progetti delle pipeline di dati non sono supportati.
Metodi di aggiornamento della destinazione	Attività di replica: Applica modifiche Archivia modifiche Trasferimento dei dati nelle attività di un data lake: Change Data Capture (CDC)
Gestione dei metadati	La generazione manuale dei metadati non è richiesta.
Evoluzione dello schema	È supportata solo l'operazione Cambia tipo di dati colonne.
Replica delle colonne LOB (NCLOB, CLOB e BLOB)	Operazione non supportata.
CDC pianificato	Operazione richiesta. In questo modo la destinazione viene aggiornata con le modifiche apportate alla sorgente. Per le attività di replica, vedere Pianificazione delle attività Per le attività di trasferimento su data lake, vedere Pianificazione CDC per le attività di trasferimento nel data lake
Notifiche	Operazione parzialmente supportata Impostare notifiche quando vengono apportate modifiche al funzionamento
Monitoraggio	Solo attività CDC, in quanto il caricamento completo non è rilevante per questo connettore. Monitoraggio di un singolo task di dati
Annullamento automatico della nidificazione dei payload nelle colonne JSON	Operazione non supportata. La nidificazione per i payload della colonna JSON nei set di dati di origine non viene annullata automaticamente nella destinazione.

Preparazione per il processo di autenticazione

Per accedere ai dati, è necessario autenticare la connessione con le credenziali del proprio account.

Assicurarsi che l'account utilizzata disponga di accesso di lettura per le tabelle che si desidera recuperare.

Per connettersi a Amazon S3, sono richieste le autorizzazioni in AWS Identity Access Management (IAM) che consentono di creare criteri, creare ruoli e allegare i criteri ai ruoli. Queste sono necessari per concedere l'autorizzazione al proprio bucket S3:

Creare un criterio IAM.
Creare un ruolo IAM.

Creazione di un criterio IAM

Un criterio IAM è un linguaggio per i criteri di accesso basato su JSON che consente di gestire le autorizzazioni alle risorse del bucket.

Autorizzazioni Amazon S3
Nome autorizzazione	Operazione	Descrizione
s3:GetObject	Oggetto GET	Permette di recuperare gli oggetti da Amazon S3.
s3:GetObject	Oggetto HEAD	Permette di recuperare i metadati di un oggetto senza restituire l'oggetto stesso.
s3:ListBucket	GET Bucket (Oggetti elenco)	Consente di restituire alcuni o tutti (fino a 1.000) gli oggetti contenuti in un bucket.
s3:ListBucket	HEAD Bucket	Utilizzato per determinare se un bucket esiste e l'accesso è consentito.

Per creare il criterio IAM:

In AWS, andare al servizio IAM facendo clic sul menu Servizi e digitando IAM.
Fare clic sul servizio IAM quando viene visualizzato nei risultati.
Fare clic su Criteri nel menu a sinistra della pagina.
Fare clic su Crea criterio.
Nella pagina Crea criterio, fare clic sulla scheda JSON.
Selezionare tutti i contenuti presenti nel campo di testo ed eliminarli.

Nel campo di testo, incollare il seguente JSON e sostituire MyBucketName con il nome del proprio bucket:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

Fare clic su Verifica criterio.
Nella pagina Verifica criterio, assegnare un nome al criterio. Ad esempio: qlik_amazon_s3.
Fare clic su Crea criterio.

Creazione di un ruolo IAM

Per completare questo passaggio, sono necessarie le seguenti autorizzazioni IAM di AWS: CreateRole e AttachRolePolicy. Per maggiori informazioni, consultare la documentazione di Amazon.

Se si desidera creare più integrazioni di Amazon S3, è necessario completare questo passaggio per ogni integrazione da collegare.

In AWS, andare alla pagina Ruoli IAM.
Fare clic su Crea ruolo.
Nella pagina Crea ruolo:
1. Nella sezione Seleziona il tipo di entità attendibile, fare clic sull'opzione Altro account AWS.
2. Nel campo ID account, incollare 338144066592.
3. Nella sezione Opzioni, selezionare la casella di controllo Richiedi ID esterno.
4. Nel campo ID esterno visualizzato, incollare qlik_connection_<tenant-id> e sostituire <tenant-id> con l'ID del proprio tenant.
  Per trovare l'ID del tenant, vedere Trovare le informazioni del tenant.
5. Fare clic su Avanti: Autorizzazioni.
Nella pagina Allega autorizzazioni:
1. Cercare il criterio creato in Creazione di un criterio IAM.
2. Una volta individuato, selezionare la casella accanto ad esso nella tabella.
3. Fare clic su Avanti: Tag.
Se si desidera inserire tag, è possibile farlo nella pagina Aggiungi tag. Altrimenti, fare clic su Avanti: Verifica.
Nella pagina Verifica:
1. Nel campo Nome ruolo, incollare qlik_s3_<tenant-id> e sostituire <tenant-id> con l'ID del proprio tenant.
  Per trovare l'ID del tenant, vedere Trovare le informazioni del tenant.
2. Inserire una descrizione nel campo Descrizione ruolo. Ad esempio: Qlik role for Amazon S3 integration.
3. Fare clic su Crea ruolo.

Definizione di un modello di ricerca

Il campo di Modello di ricerca definisce i criteri di ricerca che Qlik deve utilizzare per selezionare e replicare i file. In questo campo è possibile inserire espressioni regolari, che possono essere utilizzate per includere uno o più file.

Quando si crea un modello di ricerca, tenere presente quanto segue:

Quando si includono più file in una singola tabella, ogni file deve avere gli stessi valori per la riga di intestazione.
I caratteri speciali come i punti (.) hanno un significato particolare nelle espressioni regolari. Per una corrispondenza esatta, sarà necessario ignorarli. Ad esempio: .\
Qlik utilizza Python per le espressioni regolari, che possono variare nella sintassi rispetto ad altre varietà. Provare a utilizzare PyRegex per testare le espressioni prima di salvare l'integrazione.
Sono supportati anche i modelli di ricerca Parquet (.parquet) e Arvo (.arvo).
I modelli di ricerca devono tenere conto di come vengono aggiornati i dati nei file. Considerare i seguenti esempi:

Scenario	File singolo, aggiornato periodicamente	File multipli, generati ogni giorno
Come vengono effettuati gli aggiornamenti	Un singolo file JSONL viene aggiornato periodicamente con i dati nuovi e aggiornati dei clienti.	Ogni giorno viene creato un nuovo file CSV che contiene i dati nuovi e aggiornati dei clienti. I vecchi file non vengono mai aggiornati dopo la loro creazione.
Nome file	`customers.jsonl`	`customers-[STRING].csv`, dove `[STRING]` è una stringa univoca e casuale.
Modello di ricerca	Poiché ci sarà sempre un solo file, è possibile inserire il nome esatto del file nel proprio bucket S3: `customers\.jsonl`	Per garantire l'identificazione dei file nuovi e aggiornati, è necessario inserire un modello di ricerca che corrisponda a tutti i file che iniziano con `customers`, indipendentemente dalla stringa del nome file: `(customers-).*\.csv`
Corrisponde a	`customer.jsonl`, esattamente	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` ecc.

Requisiti per i file

Intestazione della prima riga (solo i file CSV)	Ogni file deve avere un'intestazione per la prima riga contenente i nomi delle colonne. La prima riga di ogni file è considerata la riga di intestazione e presenterà questi valori come colonne disponibili per la selezione. I file con gli stessi valori di intestazione per la prima riga, se si includono più file in una tabella. L'integrazione di Amazon S3 consente di mappare più file su un'unica tabella di destinazione. I valori della riga dell'intestazione vengono utilizzati per determinare lo schema di una tabella. Per ottenere i migliori risultati, ogni file dovrebbe avere gli stessi valori di riga per l'intestazione. Questa procedura è differente dalla configurazione di più tabelle. Per gli esempi, consultare Definizione del modello di ricerca.
Tipi di file	CSV (`.csv`) Testo (`.txt`) JSONL (`.jsonl`) Parquet (`.parquet`) Arvo (`.arvo`) I file Avro devono includere uno schema per essere supportati.
Tipi di compressione	Questi file devono essere compressi correttamente, altrimenti si verificheranno degli errori durante l'estrazione. File gzip compressi (`.gz`)
Delimitatori (solo per i file CSV)	Virgola (`,`) TAB (`/t`) Barra verticale (`\|`) Punto e virgola (`;`)
Codifica dei caratteri	UTF-8 (solo `.csv`, `.txt` e `.jsonl`) Nota informaticaI file `.parquet` e `.arvo` sono file binari RAW.

Creazione della connessione

Per ulteriori informazioni, vedere Connessione alle applicazioni SaaS.

Inserire le proprietà di connessione richieste.
Fornire un nome per la connessione in Nome connessione.
Selezionare Apri metadati di connessione per definire i metadati della connessione al momento della creazione.
Fare clic su Crea.

Impostazioni di connessione
Impostazione	Descrizione
Gateway dati	Selezionare un Gateway Data Movement se richiesto dal proprio caso di utilizzo. Nota informatica Questo campo non è disponibile con la sottoscrizione a Avvio Qlik Talend Cloud, poiché non supporta il Gateway Data Movement. Se si dispone di un altro livello di sottoscrizione e non si desidera utilizzare il Gateway Data Movement, selezionare Nessuno. Per informazioni sui vantaggi del Gateway Data Movement e quando è richiesto, vedere Qlik Data Gateway - Movimento dati.
Data di inizio	Inserire la data, nel formato `MM/DD/YYYY`, a partire dalla quale i dati devono essere replicati dalla sorgente alla destinazione.
Bucket S3	Nome del bucket S3.
ID account AWS	L'ID dell'account AWS dell'account in cui è disponibile il bucket. È possibile trovare l'ID dell'account AWS nella Console di gestione AWS, alla voce Dettagli account.
Modello di ricerca	Inserire i file da includere nella tabella. È possibile inserire un singolo nome file o un'espressione regolare. Esempio: `users\.csvproducts\.jsonl`.
Directory	Limitare la ricerca in questo percorso di directory. Se definito, verranno ricercati solo i file in questa posizione e verranno selezionati quelli che corrispondono al modello di ricerca. Non è possibile utilizzare le espressioni regolari. Esempio: csv-exports-folder o employee_jsonl_exports.
Configurazione della tabella Configurare una tabella specificando i file che si desidera includere. È possibile configurare più tabelle.
Nome tabella	Nome tabella. Ogni destinazione ha le proprie regole per il modo in cui è possibile denominare le tabelle. Ad esempio, i nomi delle tabelle Amazon Redshift non possono superare i 127 caratteri.
Chiave primaria	Inserire la chiave primaria per identificare le righe o i record univoci. Quando si inserisce più di un tasto, usare la virgola per separare i valori. Per i file CSV, inserire i campi dell'intestazione o i nomi delle colonne. Per i file JSONL, inserire i nomi degli attributi o le chiavi degli oggetti. Esempio: id, name.
Specificare i campi datetime	Inserire i valori che devono apparire come datetime anziché come stringa nella tabella. Esempio: created_at, modified_a.
Delimitatore	Selezionare il delimitatore dall'elenco a discesa.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback