Vai al contenuto principale Passa a contenuto complementare

Trasferimento dei dati su un data lake

È possibile impostare un'attività Trasferisci dati su data lake per trasferire i dati alle seguenti destinazioni:

  • Amazon S3

    Per informazioni su come configurare una connessione ad Amazon S3, vedere Amazon S3.

  • Azure Data Lake Storage

    Per informazioni su come configurare una connessione ad Azure Data Lake Storage, vedere Azure Data Lake Storage.

  • Google Cloud Storage

    Per informazioni su come configurare una connessione a Google Cloud Storage, vedere Google Cloud Storage.

Nota di suggerimentoSebbene sia possibile configurare le impostazioni della connessione Trasferisci dati su data lake di origine e di destinazione nell'installazione guidata dell'attività, per semplificare la procedura di configurazione, si consiglia di farlo prima di creare l'attività.

Per informazioni sul come configurare le connessioni nelle sorgenti dati, vedere Connessione alle sorgenti dati.

Per impostare un'attività di trasferimento su un data lake:

  1. fare clic sul pulsante Aggiungi nuova in alto a destra, quindi selezionare Crea progetto dati dal menu a discesa.

  2. Nella finestra di dialogo Nuovo progetto dati, procedere come descritto di seguito:

    1. Fornire un Nome per il progetto.

    2. Selezionare lo Spazio in cui si desidera creare il progetto.
    3. Facoltativamente, fornire una Descrizione.
    4. Selezionare Replica come Caso di utilizzo.
    5. Facoltativamente, deselezionare la casella Apri se si desidera creare un progetto vuoto senza configurare alcuna impostazione.
    6. Fare clic su Crea.

      Si verificherà uno dei seguenti eventi:

      • Se la casella di selezione Apri nella finestra di dialogo Nuovo progetto dati è rimasta selezionata (impostazione predefinita), si aprirà il progetto.
      • Se la casella Apri è stata deselezionata nella finestra di dialogo Nuovo progetto dati, il progetto verrà aggiunto all'elenco dei progetti. È possibile aprire il progetto in un secondo momento selezionando Apri dal menu del progetto.
  3. Una volta che il progetto si apre, fare clic su Trasferisci dati su data lake.

    Si aprirà la procedura guidata Trasferisci dati su data lake.

  4. Nella scheda Generali, specificare un nome e una descrizione per l'attività di trasferimento sul data lake. Quindi, fare clic su Avanti.

    Nota informaticaI nomi contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.
  5. Nella scheda Seleziona una connessione di origine, selezionare una connessione ai dati di origine. Facoltativamente, è possibile modificare le impostazioni della connessione selezionando Modifica dal menu nella colonna Azioni.

    Se non si dispone ancora di connessione dati con la sorgente dati, bisogna crearne prima una, facendo clic su Crea connessione nella parte superiore destra della scheda.

    È possibile filtrare l'elenco di connessioni utilizzando i filtri a sinistra. Le connessioni possono essere filtrate in base a tipo di origine, gateway, spazio e proprietario. Il pulsante Tutti i filtri sopra l'elenco delle connessioni mostra il numero di filtri attuali. È possibile utilizzare questo pulsante per chiudere o aprire il pannello Filtri a sinistra. I filtri attualmente attivi sono anche visualizzati sopra l'elenco delle connessioni dati disponibili.

    È possibile inoltre ordinare l'elenco selezionando Ultima modifica, Ultimi creati o Alfabetico dall'elenco a comparsa a destra. Fare clic sulla freccia a destra dell'elenco per modificare l'ordine di ordinamento.

    Dopo aver selezionato una connessione per la sorgente dati, facoltativamente, fare clic su Prova connessione nella parte superiore destra della scheda (procedura consigliata), quindi fare clic su Avanti.

  6. Nella scheda Seleziona set di dati, selezionare le tabelle e/o le viste da includere nell'attività di trasferimento sul data lake. È possibile anche utilizzare i caratteri jolly e creare regole di selezione, come descritto nella sezione Selezione di dati da un database.

    Nota informaticaI nomi di schemi o di tabelle contenenti i caratteri barra (/) o barra rovesciata (\) non sono supportati.
  7. Nella scheda Seleziona connessione di destinazione, selezionare una destinazione dall'elenco delle connessioni disponibili, quindi fare clic su Avanti. In termini di funzionalità, questa scheda è uguale alla scheda Seleziona connessione di origine descritta sopra.

  8. Nella scheda Impostazioni, modificare facoltativamente le seguenti impostazioni e fare clic su Avanti.

    • Change Data Capture (CDC): Le attività di trasferimento del data lake iniziano con un ricaricamento completo (durante il quale tutte le tabelle selezionate vengono trasferite). i dati trasferiti vengono quindi mantenuti aggiornati usando la tecnologia CDC (Change Data Capture).

      Nota informaticaL'acquisizione dati di modifica (CDC) per le operazioni DDL non è supportata.
    • Ricarica: esegue un caricamento completo dei dati dalle tabelle di origine selezionate sulla piattaforma di destinazione e, se necessario, crea le tabelle di destinazione. Il caricamento completo viene eseguito automaticamente all'avvio dell'attività, ma può anche essere eseguito o pianificato in modo che venga eseguito regolarmente, in base alle necessità.

    Se si seleziona Change data capture (CDC) e i dati contengono anche tabelle che non supportano la funzione CDC o le visualizzazioni, verranno create due pipeline di dati. Una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricarica.

    Selezionare una delle seguenti opzioni, a seconda della cartella del bucket in cui si desidera che vengano scritti i file:

    • Cartella predefinita: il formato della cartella predefinita è <nome-progetto-utente>/<nome-attività-utente>
    • Cartella radice: i file verranno scritti direttamente nel bucket.
    • Cartella: inserire il nome della cartella. La cartella verrà creata durante l'attività di trasferimento del data lake se non esiste.

      Nota informatica Il nome della cartella non può includere caratteri speciali (ad esempio, @, #, !, e così via).
  9. Nella scheda Riepilogo, viene visualizzata una pipeline di dati visiva. Scegliere l'opzione Apri l'attività <nome> o Non fare nulla. Quindi, fare clic su Crea.

    A seconda dell'opzione scelta, viene aperta l'attività o viene visualizzato un elenco dei progetti.

  10. Se si sceglie di aprire l'attività, la scheda Set di datimostrerà la struttura e i metadati delle tabelle di asset di dati selezionate. Sono incluse tutte le tabelle elencate in modo esplicito, oltre a quelle che corrispondono alle regole di selezione.

    Se si desidera aggiungere più tabelle dalla sorgente dati, fare clic su Seleziona sorgente dati.

  11. Facoltativamente, modificare l'impostazione dell'attività come descritto nella sezione Impostazioni di trasferimento su un data lake.

  12. È possibile eseguire trasformazioni sui set di dati, filtrare i dati o aggiungere colonne.

    Per ulteriori informazioni, vedere Gestione dei data mart.

  13. Dopo aver aggiunto le trasformazioni desiderate, è possibile convalidare le serie di dati facendo clic su Convalida serie di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.

    Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.

  14. Quando si è pronti, fare clic su Prepara per catalogare l'attività di trasferimento e prepararla per l'esecuzione.

  15. Una volta preparata l'attività di dati, fare clic su Esegui.

  16. L'attività di trasferimento sul data lake viene avviata. È possibile monitorarne l'avanzamento nella vista Monitoraggio. Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale

Impostazione della priorità di caricamento per i set di dati

È possibile controllare l'ordine di caricamento dei set di dati nelle attività dati assegnando una priorità di caricamento per ogni set di dati. Questa opzione può essere utile, per esempio, se si desidera caricare set di dati più piccoli prima di quelli grandi.

  1. Fare clic su Priorità di caricamento.

  2. Selezionare una priorità di caricamento per ogni set di dati.

    La priorità di caricamento predefinita è Normale. I set di dati verranno caricati nel seguente ordine di priorità:

    • Massima

    • Più alta

    • Alta

    • Normale

    • Bassa

    • Più bassa

    • Minima

    I set di dati con la stessa priorità vengono caricati senza seguire un ordine particolare.

  3. Fare clic su OK.

Nota informaticaI set di dati dalle sorgenti delle applicazioni SaaS possono contenere dipendenze nell'ordine di caricamento. Prendere in considerazione queste informazioni quando si imposta la priorità di caricamento.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!