Vai al contenuto principale Passa a contenuto complementare

Archiviazione di set di dati

In un progetto Qlik Open Lakehouse, l'attività di archiviazione scrive i dati trasferiti nelle tabelle Iceberg per operazioni di archiviazione ed esecuzione delle query efficienti. L'attività dati di archiviazione consuma i dati che sono stati trasferiti nell'area di trasferimento cloud da un'attività dati di trasferimento. Ad esempio, è possibile utilizzare le tabelle in un'app di analisi.

Le impostazioni e i comportamenti seguenti si applicano all'attività di archiviazione in un progetto Qlik Open Lakehouse che scrive su tabelle Iceberg.

  • L'attività dati di archiviazione viene eseguita continuamente e non può essere programmata.

  • Qlik ottimizza automaticamente i dati archiviati nelle tabelle Iceberg. Per ulteriori informazioni sul processo di ottimizzazione, vedere Architettura di Qlik Open Lakehouse .

  • È possibile progettare un'attività dati di archiviazione quando lo stato dell'attività dati di trasferimento è almeno Pronto per la preparazione.

  • È possibile preparare un'attività dati di archiviazione quando lo stato dell'attività dati di trasferimento è almeno Pronto per la preparazione.

L'attività dati di archiviazione utilizzerà la stessa modalità di funzionamento (Caricamento completo o Caricamento completo e CDC) dell'attività dati di trasferimento consumato. Le proprietà di configurazione sono diverse tra le due modalità di funzionamento, così come le opzioni di monitoraggio e controllo. Se si utilizza un'attività dati di trasferimento di destinazione cloud con solo caricamento completo, l'attività dati di archiviazione creerà visualizzazioni sulle tabelle di trasferimento al posto della generazione di tabelle fisiche.

Nota informaticaLe attività dati operano nel contesto del proprietario del progetto a cui appartengono. Per ulteriori informazioni su ruoli e autorizzazioni necessari, vedere Ruoli e autorizzazioni dello spazio dati.

Creazione di un'attività dati di archiviazione

È possibile creare un'attività dati di archiviazione in tre modi:

  • Fare clic su ... su un'attività dati di trasferimento e selezionare Archivia dati per creare un'attività dati di archiviazione basata su questo asset di dati di trasferimento.

  • In un progetto, fare clic su Crea e poi su Archivia dati. In questo caso occorrerà specificare quale attività dati di trasferimento utilizzare.

  • Quando si esegue l'onboarding dei dati, viene creata un'attività di dati di archiviazione. È collegata all'attività dati di trasferimento, che viene creata anche durante l'onboarding dei dati.

    Per ulteriori informazioni, vedere Onboarding dei dati in Qlik Open Lakehouse.

Dopo aver creato l'attività dati di archiviazione:

  1. Aprire l'attività dati di archiviazione facendo clic su ... e selezionando Apri.
    L'attività dati di archiviazione viene aperta ed è possibile visualizzare in anteprima i set di dati di output in base alle tabelle dell'asset di dati di trasferimento.

  2. Apportare tutte le modifiche richieste ai set di dati incluse, ad esempio trasformazioni, filtraggio dei dati o aggiunta di colonne.

    Per ulteriori informazioni, vedere Gestione dei data mart.

  3. Dopo aver aggiunto le trasformazioni desiderate, è possibile convalidare i set di dati facendo clic su Convalida set di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.

    Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.

  4. Fare clic su Prepara per preparare l'attività dati e tutti gli artefatti richiesti. Questa operazione può richiedere un po' di tempo.

    È possibile seguire l'avanzamento in Avanzamento preparazione nella parte inferiore dello schermo.

  5. Quando lo stato visualizzato è Pronto per l'esecuzione, è possibile eseguire l'attività dati.

    Fare clic su Esegui.

    L'attività dati inizierà ora a creare set di dati per archiviare i dati.

Mantenimento dei dati cronologici

È possibile conservare i dati delle modifiche cronologiche di tipo 2 per ricreare facilmente i dati così come apparivano in un momento specifico. Ciò consente di creare un archivio dati cronologici (HDS) completo.

  • Sono supportate le dimensioni del tipo 2 che si modificano lentamente.

  • Quando un record modificato viene unito, viene creato un nuovo record per l'archiviazione dei dati modificati, mentre il record originale rimane invariato.

  • Ai nuovi record HDS viene aggiunto automaticamente un indicatore temporale, per consentire di creare analisi di tendenza e altri data mart con dati temporali.

È possibile attivare i dati cronologici facendo clic su:

  • Replica con sia i dati correnti sia la cronologia dei dati precedenti in Impostazioni quando si effettua l'onboarding dei dati.

  • Mantieni i record delle modifiche cronologiche e l'archivio dei record delle modifiche nella finestra di dialogo Impostazioni di un'attività di archiviazione.

Pianificazione di un'attività di archiviazione

Un'attività di archiviazione in un progetto Qlik Open Lakehouse viene eseguita continuamente in batch di dimensioni ridotte per un minuto e non può essere programmata.

Monitoraggio di un'attività di archiviazione

È possibile monitorare lo stato e l'avanzamento di un'attività di archiviazione facendo clic su Monitora.

Per ulteriori informazioni, vedere Monitoraggio di un'attività di archiviazione di Qlik Open Lakehouse.

Risoluzione di problemi per un'attività dati di archiviazione

Quando si presentano problemi con una o più tabelle in un'attività dati di archiviazione, potrebbe essere necessario ricaricare o ricreare i dati. Per eseguire questa operazione, sono disponibili alcune opzioni. Considerare l'opzione da utilizzare nel seguente ordine:

  1. È possibile ricaricare il set di dati durante il trasferimento. Il ricaricamento del set di dati al trasferimento avvierà il processo di confronto nell'archiviazione e correggerà i dati mantenendo allo stesso tempo la cronologia di tipo 2. Questa opzione dovrebbe essere presa in considerazione anche nei seguenti casi:

    • Il caricamento completo è stato eseguito molto tempo prima ed è presente un gran numero di modifiche.

    • Se il caricamento completo e i record della tabella di modifica elaborati sono stati eliminati come parte delle attività di manutenzione dell'area di trasferimento.

    Trasferimento dati da sorgenti dati

  2. È possibile ricreare le tabelle. Questa funzione ricrea i set di dati dalla sorgente.

    • Fare clic su ... e quindi fare clic su Ricrea tabelle. Quando si ricrea una tabella, l'attività a valle reagisce come se l'azione di troncamento e ricaricamento si fosse verificata nei set di dati di origine.

      Nota informaticaSe si verificano problemi con tabelle individuali, si consiglia per prima cosa di ricaricare le tabelle anziché ricrearle. La ricreazione delle tabelle può causare la perdita di dati cronologici. Se vi sono modifiche importanti, è necessario anche preparare le attività dati a valle che utilizzano le attività dati ricreate in modo che ricarichino i dati.

Evoluzione dello schema

L'evoluzione degli schemi consente di rilevare facilmente le modifiche strutturali di più sorgenti dati e di controllare il modo in cui tali modifiche vengono applicate alla propria attività. L'evoluzione dello schema può essere utilizzata per rilevare le modifiche DDL apportate allo schema dei dati sorgente. È anche possibile applicare alcune modifiche automaticamente.

Nota informaticaL'evoluzione dello schema non è disponibile per le attività definite con i connettori Lite di un'applicazione SaaS oppure con una sottoscrizione a Avvio Qlik Talend Cloud. È parzialmente disponibile per le attività definite con i connettori di anteprima delle applicazioni SaaS.

Per ogni tipo di modifica, è possibile selezionare il tipo di gestione dei cambiamenti nella sezione Evoluzione schema delle impostazioni dell'attività. È possibile applicare le modifiche, ignorarle, sospendere la tabella o arrestare l'elaborazione dell'attività.

È possibile impostare quale azione utilizzare per gestire la modifica DDL per ogni tipo di modifica. Alcune azioni non sono disponibili per tutti i tipi di cambiamento.

  • Applica alla destinazione

    Applica le modifiche automaticamente.

  • Ignora

    Ignora le modifiche.

  • Sospendi tabella

    Sospende la tabella. La tabella verrà visualizzata come in errore in Monitora.

  • Arresta attività

    Interrompe l'elaborazione dell'attività. È utile se si desidera gestire manualmente tutte le modifiche allo schema. In questo modo si interrompe anche la pianificazione, cioè le esecuzioni pianificate non vengono eseguite.

Sono supportate le seguenti modifiche:

  • Aggiungi colonna

  • Crea la tabella che corrisponde al modello di selezione

    Se si è utilizzata una Regola di selezione per aggiungere set di dati che corrispondono a un modello, le nuove tabelle che soddisfano il modello verranno rilevate e aggiunte.

Per ulteriori informazioni sulle impostazioni delle attività, vedere Evoluzione dello schema.

Nota informaticaSe sono presenti modifiche all'evoluzione dello schema che non sono state applicate automaticamente all'archiviazione, è possibile convalidare e preparare l'attività di archiviazione.

Limitazioni per l'evoluzione dello schema

Per l'evoluzione dello schema, si applicano le seguenti limitazioni:

  • L'evoluzione dello schema è supportata solo quando si utilizza il CDC come metodo di aggiornamento.

  • Una volta modificate le impostazioni di evoluzione dello schema, è necessario preparare nuovamente l'attività.

  • Se si rinominano le tabelle, l'evoluzione dello schema non è supportata. In questo caso è necessario aggiornare i metadati prima di preparare l'attività.

  • Se si desidera progettare un'attività, è necessario aggiornare il browser per ottenere le modifiche all'evoluzione dello schema. È possibile impostare delle notifiche per ricevere avvisi relativi alle modifiche.

  • Nelle attività di trasferimento, l'eliminazione delle colonne non è supportata. L'eliminazione e l'aggiunta di una colonna genereranno un errore della tabella.

  • Nelle attività di trasferimento, l'operazione di eliminazione di tabella non eliminerà la tabella. L'eliminazione e la successiva aggiunta di una tabella troncheranno solo la tabella precedente e non verrà aggiunta una nuova tabella.

  • La modifica della lunghezza di una colonna non è possibile per tutte le destinazioni, a seconda del supporto del database di destinazione.

  • Se il nome di una colonna viene modificato, le trasformazioni esplicite definite utilizzando quella colonna non avranno effetto, poiché si basano sul nome della colonna.

  • Le limitazioni dell'opzione Aggiorna metadati si applicano anche all'evoluzione dello schema.

Durante l'acquisizione delle modifiche del DDL, si applicano le seguenti limitazioni:

  • Quando si verifica una rapida sequenza di operazioni nel database di origine (ad esempio, DDL>DML>DDL), Qlik Talend Data Integration può analizzare il registro nell'ordine sbagliato, con conseguente mancanza di dati o comportamento imprevedibile. Per ridurre al minimo le possibilità che ciò accada, la prassi migliore è attendere che le modifiche vengano applicate alla destinazione prima di eseguire l'operazione successiva.

    A titolo di esempio, durante l'acquisizione delle modifiche, se una tabella di origine viene rinominata più volte in rapida successione (e la seconda operazione la rinomina con il nome originale), si può verificare un errore che indica che la tabella esiste già nel database di destinazione.

  • Se si modifica il nome di una tabella utilizzata in un'attività e poi si interrompe quell'attività, Qlik Talend Data Integration non acquisirà le modifiche apportate a quella tabella dopo la ripresa dell'attività.
  • La ridenominazione di una tabella di origine non è supportata quando un'attività è interrotta.

  • La riallocazione delle colonne Chiave primaria di una tabella non è supportata (e quindi non verrà scritta nella tabella di controllo Cronologia DDL).
  • Quando il tipo di dati di una colonna viene modificato e la (stessa) colonna viene poi rinominata durante l'interruzione dell'attività, la modifica del DDL apparirà nella tabella di controllo Cronologia DDL come "Elimina colonna", quindi come "Aggiungi colonna" una volta ripresa l'attività. Notare che lo stesso comportamento può verificarsi anche come risultato di una latenza prolungata.
  • Le operazioni CREATE TABLE eseguite sulla sorgente durante l'interruzione di un'attività verranno applicate alla destinazione una volta ripresa l'attività, ma non saranno registrate come DDL nella tabella di controllo Cronologia DDL.
  • Le operazioni associate alle modifiche dei metadati (come ALTER TABLE, riorganizzazione, ricreazione di un indice in cluster e così via) possono causare un comportamento imprevedibile se vengono eseguite nei seguenti casi:

    • Durante un caricamento completo

      -OPPURE-

    • Tra il timestamp Inizia a elaborare le modifiche da e l'ora corrente (cioè il momento in cui l'utente fa clic su OK nella finestra di dialogo Opzioni di esecuzione avanzate ).

      Esempio:

      IF:

      l'ora specificata per Inizia a elaborare le modifiche da sono le 10:00.

      AND:

      una colonna denominata Age (Età) è stata aggiunta alla tabella Employees (Dipendenti) alle ore 10:10.

      AND:

      l'utente fa clic su OK nella finestra di dialogo Opzioni di esecuzione avanzate alle ore 10:15.

      THEN:

      le modifiche avvenute tra le 10:00 e le 10:10 possono causare errori nel processo CDC.

    Nota informatica

    In uno dei casi sopra descritti, la tabella o le tabelle interessate devono essere ricaricate affinché i dati siano correttamente spostato nella destinazione.

  • L'istruzione DDL ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> non replica il valore predefinito nella destinazione e la colonna nuova/modificata viene impostata su NULL. Notare che questo può accadere anche se il processo DDL che ha aggiunto/modificato la colonna è stato eseguito precedentemente. Se la colonna nuova/modificata ammette i valori null, l'endpoint di origine aggiorna tutte le righe della tabella prima di registrare il DDL stesso. Di conseguenza, Qlik Talend Data Integration acquisisce le modifiche ma non aggiorna la destinazione. Poiché la colonna nuova/modificata è impostata su NULL, se la tabella di destinazione non ha una chiave primaria/un indice univoco, gli aggiornamenti successivi genereranno il messaggio "zero righe interessate".
  • Le modifiche alle colonne di precisione TIMESTAMP e DATE non verranno acquisite.

Impostazioni di archiviazione

È possibile impostare le proprietà per l'attività dati di archiviazione quando la piattaforma dati è un Qlik Open Lakehouse.

  • Fare clic su Impostazioni.

Impostazioni generali

  • Database

    Database da utilizzare nella sorgente dati.

  • Schema attività

    È possibile modificare il nome dello schema dell'attività dati di archiviazione. Il nome predefinito è il nome dell'attività di archiviazione.

  • Schema interno

    È possibile modificare il nome dello schema asset di dati di archiviazione interno. Il nome predefinito è il nome dell'attività di archiviazione con _internal aggiunto.

  • Uso predefinito di maiuscole e minuscole per il nome dello schema

    È possibile impostare l'impostazione predefinita per maiuscole e minuscole per tutti i nomi degli schemi. Se il database è configurato per applicare maiuscole e minuscole in modo forzato, questa opzione non avrà effetto.

  • Prefisso per tutte le tabelle e le visualizzazioni

    È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.

    Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco.
  • Cronologia

    È possibile conservare i dati delle modifiche cronologiche per ricreare facilmente i dati così come apparivano in un momento specifico. È possibile utilizzare le viste della cronologia e le viste della cronologia "live", ossia in tempo reale, per vedere i dati storici. Selezionare Mantieni i registri cronologici e l'archivio dei record delle modifiche per abilitare i dati delle modifiche cronologiche.

  • Quando si confronta l'archiviazione con il trasferimento, come gestire i record che non esistono nel trasferimento?

    • Contrassegna come eliminato

      Ciò eseguirà un'eliminazione graduale dei record che non esistono nel trasferimento.

    • Mantieni

      Ciò manterrà tutti i record che non esistono nel trasferimento.

    Nota informaticaI set di dati nell'attività dati di archiviazione devono avere una serie di chiavi primarie. In caso contrario, ogni volta che i dati di trasferimento vengono ricaricati, verrà eseguito un caricamento iniziale sull'attività dati di archiviazione.

Impostazioni del tempo di esecuzione

  • Esecuzione parallela

    È possibile impostare il numero massimo di connessioni per caricamenti completi su un numero compreso tra 1 e 5.

  • Warehouse

    Nome del data warehouse cloud. Questa impostazione è applicabile solo per Snowflake.

Impostazioni Catalogo

  • Pubblica nel catalogo

    Selezionare questa opzione per pubblicare questa versione dei dati nel Catalogo come un set di dati. Il contenuto del Catalogo verrà aggiornato la volta successiva che si prepara l'attività.

Per ulteriori informazioni sul Catalogo, vedere Informazioni sui dati con gli strumenti del catalogo.

Evoluzione dello schema

Selezionare come gestire i seguenti tipi di modifiche del DDL nello schema. Una volta modificate le impostazioni di evoluzione dello schema, è necessario preparare nuovamente l'attività. La tabella seguente descrive le azioni disponibili per le modifiche del DDL supportate.

Modifica del DDL Applica alla destinazione Ignora Arresta attività
Aggiungi colonna
Crea tabella

Se si è utilizzata una Regola di selezione per aggiungere set di dati che corrispondono a un modello, le nuove tabelle che soddisfano il modello verranno rilevate e aggiunte.

Operazioni sull'attività dati di archiviazione

È possibile eseguire le seguenti operazioni su un'attività dati di archiviazione dal menu attività.

  • Apri

    Apre l'attività dati di archiviazione. È possibile visualizzare la struttura della tabella e i dettagli in merito all'attività dati e monitorare lo stato per il caricamento completo e i lotti di modifiche.

  • Modifica

    È possibile modificare il nome e la descrizione dell'attività e aggiungere tag.

  • Elimina

    È possibile eliminare l'attività dati.

  • Prepara

    Questa funzione prepara un'attività per l'esecuzione. Sono incluse le seguenti tabelle:

    • Convalida della validità della progettazione.

    • Creazione o modifica delle tabelle fisiche e delle visualizzazioni in modo che corrispondano alla progettazione.

    • Generazione del codice SQL per l'attività dati.

    • Creazione o modifica delle voci del catalogo per i set di dati di output dell'attività.

    È possibile seguire l'avanzamento in Avanzamento preparazione nella parte inferiore dello schermo.

  • Nota informaticaPrima di preparare un'attività, interrompere tutte le attività direttamente a valle.
  • Convalida set di dati

    Questa funzione permette di convalidare tutti i set di dati inclusi nell'attività di dati.

    Espandere Convalida e regola per visualizzare tutti gli errori di convalida e le modifiche di progettazione.

  • Ricrea tabelle

    Questa funzione ricrea i set di dati dalla sorgente. Quando si ricrea una tabella, l'attività a valle reagisce come se l'azione di troncamento e ricaricamento si fosse verificata nei set di dati di origine. Per ulteriori informazioni, vedere Risoluzione di problemi per un'attività dati di archiviazione.

  • Interrompi

    È possibile interrompere il funzionamento dell'attività dati. L'attività dati non continuerà ad aggiornare le tabelle.

    Nota informaticaQuesta opzione è disponibile quando l'attività dati è in esecuzione.
  • Riprendi

    È possibile riprendere il funzionamento di un'attività dati dal punto in cui è stato interrotto.

    Nota informaticaQuesta opzione è disponibile quando l'attività dati è interrotta.
  • Mirroring dei dati

    È possibile eseguire il mirroring delle tabelle Qlik Open Lakehouse in altre piattaforme dati. In questo modo si crea un'attività dati di mirroring.

    Mirroring dei dati in un data warehouse cloud.

Limitazioni

  • Se l'attività di dati contiene set di dati e si modificano i parametri nella connessione, ad esempio nome utente, database o schema, si presume che i dati esistano nella nuova posizione. In caso contrario, è possibile:

    • Spostare i dati presenti nell'origine nella nuova posizione.

    • Creare una nuova attività dati con le stesse impostazioni.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!