Trasferimento dei dati in un data lake con una sottoscrizione Standard, Premium o Enterprise
È possibile impostare un'attività Trasferisci dati su data lake per trasferire i dati alle seguenti destinazioni:
Amazon S3
Per informazioni su come configurare una connessione ad Amazon S3, vedere Amazon S3.
Azure Data Lake Storage
Per informazioni su come configurare una connessione ad Azure Data Lake Storage, vedere Azure Data Lake Storage.
Google Cloud Storage
Per informazioni su come configurare una connessione a Google Cloud Storage, vedere Google Cloud Storage.
Per informazioni sul come configurare le connessioni nelle sorgenti dati, vedere Configurazione di connessioni alle sorgenti dati.
Per impostare un'attività di trasferimento su un data lake:
In Integrazione dati> Progetti, fare clic su Crea progetto.
Nella finestra di dialogo Nuovo progetto, procedere come descritto di seguito:
Fornire un Nome per il progetto.
- Selezionare lo Spazio in cui si desidera creare il progetto.
- Facoltativamente, fornire una Descrizione.
- Selezionare Replica come Caso di utilizzo.
- Facoltativamente, deselezionare la casella Apri se si desidera creare un progetto vuoto senza configurare alcuna impostazione.
Fare clic su Crea.
Si verificherà uno dei seguenti eventi:
- Se la casella di selezione Apri nella finestra di dialogo Nuovo progetto è stata selezionata (impostazione predefinita), si aprirà il progetto.
- Se la casella Apri è stata deselezionata nella finestra di dialogo Nuovo progetto, il progetto verrà aggiunto all'elenco dei progetti. È possibile aprire il progetto in un secondo momento selezionando Apri dal menu del progetto.
Una volta che il progetto si apre, fare clic su Trasferisci dati su data lake.
Si aprirà la procedura guidata Trasferisci dati su data lake.
Nella scheda Generali, specificare un nome e una descrizione per l'attività di trasferimento sul data lake. Quindi, fare clic su Avanti.
Nota informaticaI nomi contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.Nella scheda Seleziona una connessione di origine, selezionare una connessione ai dati di origine. Facoltativamente, è possibile modificare le impostazioni della connessione selezionando Modifica dal menu nella colonna Azioni.
Se non si dispone ancora di una connessione ai dati di origine, è necessario crearne una prima, facendo clic su Crea connessione nella parte superiore destra della scheda.
È possibile filtrare l'elenco di connessioni utilizzando i filtri a sinistra. Le connessioni possono essere filtrate in base a tipo di origine, gateway, spazio e proprietario. Il pulsante Tutti i filtri sopra l'elenco delle connessioni mostra il numero di filtri attuali. È possibile utilizzare questo pulsante per chiudere o aprire il pannello Filtri a sinistra. I filtri attualmente attivi sono anche visualizzati sopra l'elenco delle connessioni disponibili.
È possibile inoltre ordinare l'elenco selezionando Ultima modifica, Ultimi creati o Alfabetico dall'elenco a comparsa a destra. Fare clic sulla freccia a destra dell'elenco per modificare l'ordine di ordinamento.
Dopo aver selezionato una connessione per la sorgente dati, facoltativamente, fare clic su Prova connessione nella parte superiore destra della scheda (procedura consigliata), quindi fare clic su Avanti.
Nella scheda Seleziona set di dati, selezionare le tabelle e/o le viste da includere nell'attività di trasferimento sul data lake. È possibile anche utilizzare i caratteri jolly e creare regole di selezione, come descritto nella sezione Selezione di dati da un database.
Nota informaticaI nomi di schemi o di tabelle contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.Nella scheda Seleziona connessione di destinazione, selezionare una destinazione dall'elenco delle connessioni disponibili, quindi fare clic su Avanti. In termini di funzionalità, questa scheda è uguale alla scheda Seleziona connessione di origine descritta sopra.
Nella scheda Impostazioni, modificare facoltativamente le seguenti impostazioni e fare clic su Avanti.
Metodo di aggiornamento:
Change Data Capture (CDC): Le attività di trasferimento del data lake iniziano con un ricaricamento completo (durante il quale tutte le tabelle selezionate vengono trasferite). i dati trasferiti vengono quindi mantenuti aggiornati usando la tecnologia CDC (Change Data Capture).
Nota informaticaL'acquisizione dati di modifica (CDC) per le operazioni DDL non è supportata.Quando si utilizza il Gateway di Data Movement, le modifiche vengono acquisite dalla sorgente pressoché in tempo reale. Quando si lavora senza il Gateway di Data MovementData Movement gateway, le modifiche vengono acquisite in base alle impostazioni dell'utilità di pianificazione. Per ulteriori informazioni, vedere Pianificazione di attività quando non si utilizza il Gateway di Data Movement.
- Ricarica: esegue un caricamento completo dei dati dalle tabelle di origine selezionate sulla piattaforma di destinazione e, se necessario, crea le tabelle di destinazione. Il caricamento completo viene eseguito automaticamente all'avvio dell'attività, ma può anche essere eseguito o pianificato in modo che venga eseguito regolarmente, in base alle necessità.
Se si seleziona Change data capture (CDC) e i dati contengono anche tabelle che non supportano la funzione CDC o le visualizzazioni, verranno create due pipeline di dati. Una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricarica.
Cartella da utilizzare:
Selezionare una delle seguenti opzioni, a seconda della cartella del bucket in cui si desidera che vengano scritti i file:
- Cartella predefinita: il formato della cartella predefinita è <nome-progetto-utente>/<nome-attività-utente>
- Cartella radice: i file verranno scritti direttamente nel bucket.
Cartella: inserire il nome della cartella. La cartella verrà creata durante l'attività di trasferimento del data lake se non esiste.
Nota informatica Il nome della cartella non può includere caratteri speciali (ad esempio, @, #, !, e così via).
Nella scheda Riepilogo, viene visualizzata una pipeline di dati visiva. Scegliere l'opzione Apri l'attività <nome> o Non fare nulla. Quindi, fare clic su Crea.
A seconda dell'opzione scelta, viene aperta l'attività o viene visualizzato un elenco dei progetti.
Se si sceglie di aprire l'attività, la scheda Set di datimostrerà la struttura e i metadati delle tabelle di asset di dati selezionate. Sono incluse tutte le tabelle elencate in modo esplicito, oltre a quelle che corrispondono alle regole di selezione.
Se si desidera aggiungere più tabelle dalla sorgente dati, fare clic su Seleziona sorgente dati.
Facoltativamente, modificare l'impostazione dell'attività come descritto nella sezione Impostazioni per le destinazioni di archiviazione cloud.
È possibile eseguire trasformazioni sui set di dati, filtrare i dati o aggiungere colonne.
Per ulteriori informazioni, vedere Gestione dei data mart.
Dopo aver aggiunto le trasformazioni desiderate, è possibile convalidare le serie di dati facendo clic su Convalida serie di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.
Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.
Quando si è pronti, fare clic su Prepara per catalogare l'attività di trasferimento e prepararla per l'esecuzione.
Una volta preparata l'attività di dati, fare clic su Esegui.
L'attività di trasferimento sul data lake viene avviata. È possibile monitorarne l'avanzamento nella vista Monitoraggio. Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale
Impostazione della priorità di caricamento per i set di dati
È possibile controllare l'ordine di caricamento dei set di dati nelle attività dati assegnando una priorità di caricamento per ogni set di dati. Questa opzione può essere utile, per esempio, se si desidera caricare set di dati più piccoli prima di quelli grandi.
Fare clic su Priorità di caricamento.
Selezionare una priorità di caricamento per ogni set di dati.
La priorità di caricamento predefinita è Normale. I set di dati verranno caricati nel seguente ordine di priorità:
Massima
Più alta
Alta
Normale
Bassa
Più bassa
Minima
I set di dati con la stessa priorità vengono caricati senza seguire un ordine particolare.
Fare clic su OK.
Aggiornamento metadati
È possibile aggiornare i metadati nell'attività per allinearli con le modifiche nei metadati nella sorgente nella vista Progettazione dell'attività. Per le applicazioni SaaS che utilizzano Metadata Manager, quest'ultimo deve essere aggiornato prima di poter aggiornare i metadati nell'attività dati.
È possibile eseguire le seguenti azioni:
Fare clic su ..., quindi su Aggiorna metadati per aggiornare i metadati per tutti i set di dati nell'attività.
Fare clic su ... su un set di dati in Set di dati, quindi su Aggiorna metadati per aggiornare i metadati per un singolo set di dati.
È possibile visualizzare lo stato del processo di aggiornamento dei metadati in Aggiorna metadati nella parte inferiore dello schermo. È possibile visualizzare la data dell'ultimo aggiornamento dei metadati posizionando il cursore su .
Preparare l'attività dati per applicare le modifiche.
Una volta preparata l'attività dati e applicate le modifiche, queste vengono rimosse da Aggiorna metadati.
Devi preparare attività di archiviazione che utilizzano questa attività per propagare le modifiche.
Se una colonna viene rimossa, viene aggiunta una trasformazione con valori Null per assicurare che l'archiviazione non perda i dati cronologici.
Limiti
Se si esegue un'operazione di ridenominazione con una colonna rimossa anteriormente, nello stesso intervallo di tempo, questa verrà tradotta nella ridenominazione della colonna rimossa se hanno lo stesso tipo e la stessa lunghezza dati.
Esempio:
Prima: a b c d
Dopo: a c1 d
In questo esempio, b è stato rimosso e c è stato rinominato c1, mentre b e c hanno lo stesso tipo di dati e la stessa lunghezza dati.
L'operazione verrà identificata come ridenominazione di b in c1 e rimozione di c.
La ridenominazione dell'ultima colonna non viene riconosciuta, anche se questa è stata rimossa e quella prima di essa è stata rinominata.
Esempio:
Prima: a b c d
Dopo: a b c1
In questo esempio, d è stato rimosso e c è stato rinominato c1.
Questa operazione verrà identificata come rimozione di c e d e l'aggiunta di c1.
Le nuove colonne dovrebbero essere aggiunte alla fine. Se le colonne vengono aggiunte a metà con lo stesso tipo di dati della colonna successiva, possono essere interpretate come una rimozione e una ridenominazione.
Limitazioni e considerazioni sul trasferimento di dati in un data lake
Le trasformazioni sono soggette alle seguenti limitazioni:
- Le trasformazioni non sono supportate per le colonne con lingue da destra a sinistra.
Le trasformazioni non possono essere eseguite sulle colonne che contengono caratteri speciali (ad esempio #, \, /, -) nel nome.
- L'unica trasformazione supportata per i tipi di dati LOB/CLOB è il rilascio della colonna nella destinazione.
- L'utilizzo di una trasformazione per rinominare una colonna e quindi aggiungere una nuova colonna con lo stesso nome non è supportato.
La modifica del supporto dei valori null non è supportata per le colonne che vengono spostate, sia modificandole direttamente che utilizzando una regola di trasformazione. Tuttavia, le nuove colonne create nell'attività ammettono i valori null per impostazione predefinita.