Trasferimento dei dati in un data lake con una sottoscrizione Standard, Premium o Enterprise
È possibile impostare un'attività Trasferisci dati su data lake per trasferire i dati alle seguenti destinazioni:
Amazon S3
Per informazioni su come configurare una connessione ad Amazon S3, vedere Amazon S3.
Azure Data Lake Storage
Per informazioni su come configurare una connessione ad Azure Data Lake Storage, vedere Azure Data Lake Storage.
Google Cloud Storage
Per informazioni su come configurare una connessione a Google Cloud Storage, vedere Google Cloud Storage.
Per informazioni sul come configurare le connessioni nelle sorgenti dati, vedere Configurazione di connessioni alle sorgenti dati.
Per impostare un'attività di trasferimento su un data lake:
In Integrazione dati> Progetti, fare clic su Crea progetto.
Nella finestra di dialogo Nuovo progetto, procedere come descritto di seguito:
Fornire un Nome per il progetto.
- Selezionare lo Spazio in cui si desidera creare il progetto.
- Facoltativamente, fornire una Descrizione.
- Selezionare Replica come Caso di utilizzo.
- Facoltativamente, deselezionare la casella Apri se si desidera creare un progetto vuoto senza configurare alcuna impostazione.
Fare clic su Crea.
Si verificherà uno dei seguenti eventi:
- Se la casella di selezione Apri nella finestra di dialogo Nuovo progetto è stata selezionata (impostazione predefinita), si aprirà il progetto.
- Se la casella Apri è stata deselezionata nella finestra di dialogo Nuovo progetto, il progetto verrà aggiunto all'elenco dei progetti. È possibile aprire il progetto in un secondo momento selezionando Apri dal menu del progetto.
Una volta che il progetto si apre, fare clic su Trasferisci dati su data lake.
Si aprirà la procedura guidata Trasferisci dati su data lake.
Nella scheda Generali, specificare un nome e una descrizione per l'attività di trasferimento sul data lake. Quindi, fare clic su Avanti.
Nota informaticaI nomi contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.Nella scheda Seleziona una connessione di origine, selezionare una connessione ai dati di origine. Facoltativamente, è possibile modificare le impostazioni della connessione selezionando Modifica dal menu nella colonna Azioni.
Se non si dispone ancora di una connessione ai dati di origine, è necessario crearne una prima, facendo clic su Crea connessione nella parte superiore destra della scheda.
È possibile filtrare l'elenco di connessioni utilizzando i filtri a sinistra. Le connessioni possono essere filtrate in base a tipo di origine, gateway, spazio e proprietario. Il pulsante Tutti i filtri sopra l'elenco delle connessioni mostra il numero di filtri attuali. È possibile utilizzare questo pulsante per chiudere o aprire il pannello Filtri a sinistra. I filtri attualmente attivi sono anche visualizzati sopra l'elenco delle connessioni disponibili.
È possibile inoltre ordinare l'elenco selezionando Ultima modifica, Ultimi creati o Alfabetico dall'elenco a comparsa a destra. Fare clic sulla freccia a destra dell'elenco per modificare l'ordine di ordinamento.
Dopo aver selezionato una connessione per la sorgente dati, facoltativamente, fare clic su Prova connessione nella parte superiore destra della scheda (procedura consigliata), quindi fare clic su Avanti.
Nella scheda Seleziona set di dati, selezionare le tabelle e/o le viste da includere nell'attività di trasferimento sul data lake. È possibile anche utilizzare i caratteri jolly e creare regole di selezione, come descritto nella sezione Selezione di dati da un database.
Nota informaticaI nomi di schemi o di tabelle contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.Nella scheda Seleziona connessione di destinazione, selezionare una destinazione dall'elenco delle connessioni disponibili, quindi fare clic su Avanti. In termini di funzionalità, questa scheda è uguale alla scheda Seleziona connessione di origine descritta sopra.
Nella scheda Impostazioni, modificare facoltativamente le seguenti impostazioni e fare clic su Avanti.
Metodo di aggiornamento:
Change Data Capture (CDC): Le attività di trasferimento del data lake iniziano con un ricaricamento completo (durante il quale tutte le tabelle selezionate vengono trasferite). i dati trasferiti vengono quindi mantenuti aggiornati usando la tecnologia CDC (Change Data Capture).
Nota informaticaL'acquisizione dati di modifica (CDC) per le operazioni DDL non è supportata.Quando si utilizza il Gateway di Data Movement, le modifiche vengono acquisite dalla sorgente pressoché in tempo reale. Quando si lavora senza il Gateway di Data MovementData Movement gateway, le modifiche vengono acquisite in base alle impostazioni dell'utilità di pianificazione. Per ulteriori informazioni, vedere Pianificazione di attività quando non si utilizza il Gateway di Data Movement.
- Ricarica: esegue un caricamento completo dei dati dalle tabelle di origine selezionate sulla piattaforma di destinazione e, se necessario, crea le tabelle di destinazione. Il caricamento completo viene eseguito automaticamente all'avvio dell'attività, ma può anche essere eseguito o pianificato in modo che venga eseguito regolarmente, in base alle necessità.
Se si seleziona Change data capture (CDC) e i dati contengono anche tabelle che non supportano la funzione CDC o le visualizzazioni, verranno create due pipeline di dati. Una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricarica.
Cartella da utilizzare:
Selezionare una delle seguenti opzioni, a seconda della cartella del bucket in cui si desidera che vengano scritti i file:
- Cartella predefinita: il formato della cartella predefinita è <nome-progetto-utente>/<nome-attività-utente>
- Cartella radice: i file verranno scritti direttamente nel bucket.
Cartella: inserire il nome della cartella. La cartella verrà creata durante l'attività di trasferimento del data lake se non esiste.
Nota informatica Il nome della cartella non può includere caratteri speciali (ad esempio, @, #, !, e così via).
Nella scheda Riepilogo, viene visualizzata una pipeline di dati visiva. Scegliere l'opzione Apri l'attività <nome> o Non fare nulla. Quindi, fare clic su Crea.
A seconda dell'opzione scelta, viene aperta l'attività o viene visualizzato un elenco dei progetti.
Se si sceglie di aprire l'attività, la scheda Set di datimostrerà la struttura e i metadati delle tabelle di asset di dati selezionate. Sono incluse tutte le tabelle elencate in modo esplicito, oltre a quelle che corrispondono alle regole di selezione.
Se si desidera aggiungere più tabelle dalla sorgente dati, fare clic su Seleziona sorgente dati.
Facoltativamente, modificare l'impostazione dell'attività come descritto nella sezione Impostazioni per le destinazioni di archiviazione cloud.
È possibile eseguire trasformazioni sui set di dati, filtrare i dati o aggiungere colonne.
Per ulteriori informazioni, vedere Gestione dei data mart.
Dopo aver aggiunto le trasformazioni desiderate, è possibile convalidare le serie di dati facendo clic su Convalida serie di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.
Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.
Quando si è pronti, fare clic su Prepara per catalogare l'attività di trasferimento e prepararla per l'esecuzione.
Una volta preparata l'attività di dati, fare clic su Esegui.
L'attività di trasferimento sul data lake viene avviata. È possibile monitorarne l'avanzamento nella vista Monitoraggio. Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale
Impostazione della priorità di caricamento per i set di dati
È possibile controllare l'ordine di caricamento dei set di dati nelle attività dati assegnando una priorità di caricamento per ogni set di dati. Questa opzione può essere utile, per esempio, se si desidera caricare set di dati più piccoli prima di quelli grandi.
Fare clic su Priorità di caricamento.
Selezionare una priorità di caricamento per ogni set di dati.
La priorità di caricamento predefinita è Normale. I set di dati verranno caricati nel seguente ordine di priorità:
Massima
Più alta
Alta
Normale
Bassa
Più bassa
Minima
I set di dati con la stessa priorità vengono caricati senza seguire un ordine particolare.
Fare clic su OK.
Aggiornamento metadati
È possibile aggiornare i metadati nell'attività per allinearli con le modifiche nei metadati nella sorgente nella vista Progettazione dell'attività. Per le applicazioni SaaS che utilizzano Metadata Manager, quest'ultimo deve essere aggiornato prima di poter aggiornare i metadati nell'attività dati.
È possibile eseguire le seguenti azioni:
Fare clic su ..., quindi su Aggiorna metadati per aggiornare i metadati per tutti i set di dati nell'attività.
Fare clic su ... su un set di dati in Set di dati, quindi su Aggiorna metadati per aggiornare i metadati per un singolo set di dati.
È possibile visualizzare lo stato del processo di aggiornamento dei metadati in Aggiorna metadati nella parte inferiore dello schermo. È possibile visualizzare la data dell'ultimo aggiornamento dei metadati posizionando il cursore su .
Preparare l'attività dati per applicare le modifiche.
Una volta preparata l'attività dati e applicate le modifiche, queste vengono rimosse da Aggiorna metadati.
Devi preparare attività di archiviazione che utilizzano questa attività per propagare le modifiche.
Se una colonna viene rimossa, viene aggiunta una trasformazione con valori Null per assicurare che l'archiviazione non perda i dati cronologici.
Limitazioni per l'aggiornamento dei metadati
Se si esegue un'operazione di ridenominazione con una colonna rimossa anteriormente, nello stesso intervallo di tempo, questa verrà tradotta nella ridenominazione della colonna rimossa se hanno lo stesso tipo e la stessa lunghezza dati.
Esempio:
Prima: a b c d
Dopo: a c1 d
In questo esempio, b è stato rimosso e c è stato rinominato c1, mentre b e c hanno lo stesso tipo di dati e la stessa lunghezza dati.
L'operazione verrà identificata come ridenominazione di b in c1 e rimozione di c.
La ridenominazione dell'ultima colonna non viene riconosciuta, anche se questa è stata rimossa e quella prima di essa è stata rinominata.
Esempio:
Prima: a b c d
Dopo: a b c1
In questo esempio, d è stato rimosso e c è stato rinominato c1.
Questa operazione verrà identificata come rimozione di c e d e l'aggiunta di c1.
Le nuove colonne dovrebbero essere aggiunte alla fine. Se le colonne vengono aggiunte a metà con lo stesso tipo di dati della colonna successiva, possono essere interpretate come una rimozione e una ridenominazione.
Evoluzione dello schema
L'evoluzione degli schemi consente di rilevare facilmente le modifiche strutturali di più sorgenti dati e di controllare il modo in cui tali modifiche vengono applicate alla propria attività. L'evoluzione dello schema può essere utilizzata per rilevare le modifiche DDL apportate allo schema dei dati sorgente. È anche possibile applicare alcune modifiche automaticamente.
Per ogni tipo di modifica, è possibile selezionare il tipo di gestione dei cambiamenti nella sezione Evoluzione schema delle impostazioni dell'attività. È possibile applicare le modifiche, ignorarle, sospendere la tabella o arrestare l'elaborazione dell'attività.
È possibile impostare quale azione utilizzare per gestire la modifica DDL per ogni tipo di modifica. Alcune azioni non sono disponibili per tutti i tipi di cambiamento.
Applica alla destinazione
Applica le modifiche automaticamente.
Ignora
Ignora le modifiche.
Sospendi tabella
Sospende la tabella. La tabella verrà visualizzata come in errore in Monitora.
Arresta attività
Interrompe l'elaborazione dell'attività. È utile se si desidera gestire manualmente tutte le modifiche allo schema. In questo modo si interrompe anche la pianificazione, cioè le esecuzioni pianificate non vengono eseguite.
Sono supportate le seguenti modifiche:
Aggiungi colonna
Rinomina colonna
Modifica tipo di dati colonne
Crea la tabella che corrisponde al modello di selezione
Se si è utilizzata una Regola di selezione per aggiungere set di dati che corrispondono a un modello, le nuove tabelle che soddisfano il modello verranno rilevate e aggiunte.
Per ulteriori informazioni sulle impostazioni delle attività, vedere Evoluzione dello schema.
È possibile anche ricevere notifiche sulle modifiche che vengono gestite con l'evoluzione dello schema. Per ulteriori informazioni, vedere Impostare notifiche quando vengono apportate modifiche al funzionamento.
Limitazioni per l'evoluzione dello schema
Per l'evoluzione dello schema, si applicano le seguenti limitazioni:
L'evoluzione dello schema è supportata solo quando si utilizza il CDC come metodo di aggiornamento.
Una volta modificate le impostazioni di evoluzione dello schema, è necessario preparare nuovamente l'attività.
Se si rinominano le tabelle, l'evoluzione dello schema non è supportata. In questo caso è necessario aggiornare i metadati prima di preparare l'attività.
Se si desidera progettare un'attività, è necessario aggiornare il browser per ottenere le modifiche all'evoluzione dello schema. È possibile impostare delle notifiche per ricevere avvisi relativi alle modifiche.
Nelle attività di trasferimento, l'eliminazione delle colonne non è supportata. L'eliminazione e l'aggiunta di una colonna genereranno un errore della tabella.
Nelle attività di trasferimento, l'operazione di eliminazione di tabella non eliminerà la tabella. L'eliminazione e la successiva aggiunta di una tabella troncheranno solo la tabella precedente e non verrà aggiunta una nuova tabella.
La modifica della lunghezza di una colonna non è possibile per tutte le destinazioni, a seconda del supporto del database di destinazione.
Se il nome di una colonna viene modificato, le trasformazioni esplicite definite utilizzando quella colonna non avranno effetto, poiché si basano sul nome della colonna.
Le limitazioni dell'opzione Aggiorna metadati si applicano anche all'evoluzione dello schema.
Durante l'acquisizione delle modifiche del DDL, si applicano le seguenti limitazioni:
Quando si verifica una rapida sequenza di operazioni nel database di origine (ad esempio, DDL>DML>DDL), Qlik Talend Data Integration può analizzare il registro nell'ordine sbagliato, con conseguente mancanza di dati o comportamento imprevedibile. Per ridurre al minimo le possibilità che ciò accada, la prassi migliore è attendere che le modifiche vengano applicate alla destinazione prima di eseguire l'operazione successiva.
A titolo di esempio, durante l'acquisizione delle modifiche, se una tabella di origine viene rinominata più volte in rapida successione (e la seconda operazione la rinomina con il nome originale), si può verificare un errore che indica che la tabella esiste già nel database di destinazione.
- Se si modifica il nome di una tabella utilizzata in un'attività e poi si interrompe quell'attività, Qlik Talend Data Integration non acquisirà le modifiche apportate a quella tabella dopo la ripresa dell'attività.
La ridenominazione di una tabella di origine non è supportata quando un'attività è interrotta.
- La riallocazione delle colonne Chiave primaria di una tabella non è supportata (e quindi non verrà scritta nella tabella di controllo Cronologia DDL).
- Quando il tipo di dati di una colonna viene modificato e la (stessa) colonna viene poi rinominata durante l'interruzione dell'attività, la modifica del DDL apparirà nella tabella di controllo Cronologia DDL come "Elimina colonna", quindi come "Aggiungi colonna" una volta ripresa l'attività. Notare che lo stesso comportamento può verificarsi anche come risultato di una latenza prolungata.
- Le operazioni CREATE TABLE eseguite sulla sorgente durante l'interruzione di un'attività verranno applicate alla destinazione una volta ripresa l'attività, ma non saranno registrate come DDL nella tabella di controllo Cronologia DDL.
Le operazioni associate alle modifiche dei metadati (come ALTER TABLE, riorganizzazione, ricreazione di un indice in cluster e così via) possono causare un comportamento imprevedibile se vengono eseguite nei seguenti casi:
Durante un caricamento completo
-OPPURE-
Tra il timestamp Inizia a elaborare le modifiche da e l'ora corrente (cioè il momento in cui l'utente fa clic su OK nella finestra di dialogo Opzioni di esecuzione avanzate ).
Esempio:
IF:
l'ora specificata per Inizia a elaborare le modifiche da sono le 10:00.
AND:
una colonna denominata Age (Età) è stata aggiunta alla tabella Employees (Dipendenti) alle ore 10:10.
AND:
l'utente fa clic su OK nella finestra di dialogo Opzioni di esecuzione avanzate alle ore 10:15.
THEN:
le modifiche avvenute tra le 10:00 e le 10:10 possono causare errori nel processo CDC.
Nota informaticaIn uno dei casi sopra descritti, la tabella o le tabelle interessate devono essere ricaricate affinché i dati siano correttamente spostato nella destinazione.
- L'istruzione DDL
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
non replica il valore predefinito nella destinazione e la colonna nuova/modificata viene impostata su NULL. Notare che questo può accadere anche se il processo DDL che ha aggiunto/modificato la colonna è stato eseguito precedentemente. Se la colonna nuova/modificata ammette i valori null, l'endpoint di origine aggiorna tutte le righe della tabella prima di registrare il DDL stesso. Di conseguenza, Qlik Talend Data Integration acquisisce le modifiche ma non aggiorna la destinazione. Poiché la colonna nuova/modificata è impostata su NULL, se la tabella di destinazione non ha una chiave primaria/un indice univoco, gli aggiornamenti successivi genereranno il messaggio "zero righe interessate". Le modifiche alle colonne di precisione TIMESTAMP e DATE non verranno acquisite.
Limitazioni e considerazioni sul trasferimento di dati in un data lake
Le trasformazioni sono soggette alle seguenti limitazioni:
- Le trasformazioni non sono supportate per le colonne con lingue da destra a sinistra.
Le trasformazioni non possono essere eseguite sulle colonne che contengono caratteri speciali (ad esempio #, \, /, -) nel nome.
- L'unica trasformazione supportata per i tipi di dati LOB/CLOB è il rilascio della colonna nella destinazione.
- L'utilizzo di una trasformazione per rinominare una colonna e quindi aggiungere una nuova colonna con lo stesso nome non è supportato.
La modifica del supporto dei valori null non è supportata per le colonne che vengono spostate, sia modificandole direttamente che utilizzando una regola di trasformazione. Tuttavia, le nuove colonne create nell'attività ammettono i valori null per impostazione predefinita.