Archiviazione di set di dati in flusso
Le seguenti impostazioni dell'attività Trasformazione in flusso si applicano ai progetti Qlik Open Lakehouse che utilizzano un'origine in flusso.
È possibile archiviare e trasformare i dati in flusso utilizzando l'attività Trasforma dati in flusso. I dati in flusso spesso contengono strutture nidificate e array che richiedono l'appiattimento e sono necessarie funzionalità di trasformazione durante la fase di archiviazione. Queste funzionalità sono disponibili per l'attività Trasformazione in flusso, consentendo di applicare le trasformazioni immediatamente dopo il trasferimento dei dati in flusso.
Gestione della granularità del set di dati
È possibile appiattire strutture nidificate e array per aumentare la granularità. Granularità viene visualizzata nella vista Set di dati. Fare clic su per modificare la granularità:
-
La selezione di un campo da un array farà in modo che la tabella di destinazione includa una riga per elemento. Ciò aumenterà il numero di righe nella destinazione.
-
È necessario selezionare i campi dallo stesso percorso dell'array. La selezione di campi da percorsi diversi genererà un errore di convalida.
-
I tipi di dati visualizzati riflettono la granularità selezionata. Ad esempio, un ARRAY<INT> diventa INT quando viene appiattito. Per ulteriori informazioni, vedere Mappature dei tipi di dati.
Eliminazione di un'attività
È possibile eliminare l'attività di dati se non è in esecuzione e non ci sono dipendenze da attività downstream nello stesso progetto.
-
Nella vista Progetto pipeline del progetto, fare clic su
su un'attività e selezionare Elimina.
Anche gli artefatti (tabelle e viste) creati dall'attività verranno eliminati, a meno che non si scelga di mantenerli.
Visualizzazione delle informazioni sull'attività
Fare clic su sulla barra dei menu per visualizzare le informazioni sull'attività, ad esempio:
-
Proprietario
-
Spazio
-
Piattaforma dati
-
ID progetto
-
ID tempo di esecuzione attività dati
Impostazioni Trasformazione in flusso
È possibile impostare le proprietà per l'attività Trasforma dati in flusso quando la piattaforma dati è Qlik Open Lakehouse.
-
Fare clic su Impostazioni.
Impostazioni generali
-
Schema attività
È possibile modificare il nome dello schema dell'attività Trasformazione in flusso. Il nome predefinito è il nome dell'attività di archiviazione.
-
Schema interno
È possibile modificare il nome dello schema asset di dati di archiviazione interno. Il nome predefinito è il nome dell'attività di archiviazione con l'aggiunta di _internal.
- Prefisso per tutte le tabelle e le visualizzazioni
È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.
Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco. -
Cartella da utilizzare
È possibile modificare la cartella di archiviazione dell'attività Trasformazione in flusso.
-
Impostazioni di caricamento per i nuovi set di dati
-
Solo accodamento
Aggiunge nuovi record senza modificare i dati esistenti. I vincoli del campo chiave non vengono applicati se arrivano record duplicati.
-
Applica modifiche
Aggiorna i record esistenti e inserisce nuovi record in base ai campi chiave.
Se si sceglie di unire le modifiche, è possibile selezionare anche quanto segue:
-
Eliminazione logica dei record fornendo un'espressione di eliminazione
Definire un'espressione di eliminazione per contrassegnare i record per l'eliminazione.
-
Mantieni record storici (Tipo 2)
Mantiene le versioni precedenti dei record modificati.
-
-
-
Annullamento nidificazione colonne
-
Mantieni colonne nidificate
Selezionare per mantenere i dati nidificati.
-
Annulla nidificazione in colonne separate
Il comportamento predefinito consiste nell'annullare la nidificazione dei dati in colonne separate.
-
-
Partizione tabelle di destinazione
Nota informaticaQuesta opzione è disponibile solo quando si seleziona Solo accodamento in Impostazioni di caricamento.-
Nessuna partizione
Le nuove tabelle vengono create senza partizioni.
-
Partiziona per data evento
Le nuove tabelle vengono partizionate in base alla data di acquisizione degli eventi.
-
-
Gestione modifiche dati
Nota informaticaQuesta opzione è disponibile solo quando si seleziona Applica modifiche in Impostazioni di caricamento.-
Includi eliminazioni logiche: inserire un'espressione per definire quali record contrassegnare per l'eliminazione.
-
Crea un archivio dati storico (Tipo 2): manterrà le versioni precedenti dei record modificati.
-
- Gestione conservazione
-
Nessuna eliminazione partizione
-
Eliminazione partizione snapshot corrente
-
Definizioni di tabella
-
hdr__from_timestamp
Quando questa opzione è abilitata, la colonna di intestazione hdr__from_timestamp apparirà nelle viste standard. Inoltre, quando si seleziona Partiziona per data di acquisizione dell'evento nella procedura guidata di onboarding, hdr__from_timestamp verrà utilizzata come colonna di partizione predefinita.
Nota informaticaLe viste cronologia includono sempre tutte le colonne di intestazione della vista standard, indipendentemente da questa impostazione.
Impostazioni di runtime
-
Cluster Lakehouse
È possibile modificare il cluster lakehouse, ma questo deve supportare carichi di lavoro in flusso o carichi di lavoro misti.
Impostazioni di evoluzione dello schema
-
Aggiungi colonne a livello radice
Questa impostazione si applica quando vengono aggiunte nuove colonne all'attività di trasferimento in flusso a livello radice.
-
Applica a destinazione
Aggiunge automaticamente nuove colonne a livello radice dall'attività di trasferimento in flusso all'attività Trasformazione in flusso. Questa è l'impostazione predefinita.
-
Ignora
Non aggiunge nuove colonne a livello radice.
-
Interrompi attività
Interrompe l'attività di trasformazione se viene rilevata una nuova colonna a livello radice nell'attività di trasferimento in flusso.
-
-
Aggiungi colonne alle strutture
Questa impostazione si applica quando vengono aggiunti nuovi campi all'interno di una struttura nidificata esistente nell'attività di trasferimento in flusso.
- Applica a destinazione
Aggiunge automaticamente nuovi campi alle strutture esistenti nell'attività Trasformazione in flusso se vengono aggiunti alla struttura di trasferimento.
-
Ignora
Non aggiunge nuovi campi alle strutture esistenti.
-
Interrompi attività
Interrompe l'attività di trasformazione se viene aggiunto un nuovo campo a una struttura nell'attività di trasferimento in flusso.
- Applica a destinazione
-
Modifica tipo di dati del campo
- Ignora
Non modifica il tipo di dati.
-
Interrompi attività
Interrompe l'attività di trasformazione se viene rilevata una modifica del tipo di dati nell'attività di trasferimento in flusso.
- Ignora
Impostazioni del set di dati
Le seguenti impostazioni sono disponibili per tutti i set di dati nella vista Progettazione > Set di dati.
Fare clic su accanto al set di dati e selezionare Impostazioni.
-
Gestione caricamento dati
Seleziona la modalità di caricamento dei dati nella tabella di destinazione.
-
Solo accodamento
Aggiunge nuovi record senza modificare i dati esistenti. I vincoli del campo chiave non vengono applicati se arrivano record duplicati.
-
Applica modifiche
Aggiorna i record esistenti e inserisce nuovi record in base ai campi chiave.
-
-
Gestione modifiche dati
Nota informaticaQuesta opzione è disponibile solo quando si seleziona Applica modifiche in Impostazioni di caricamento.-
Includi eliminazioni logiche: inserire un'espressione per definire quali record contrassegnare per l'eliminazione. Questa dovrebbe essere un'espressione che restituisce True se la modifica è un'eliminazione logica.
Esempio: operation = 'D'
-
Crea un archivio dati storico (Tipo 2): manterrà le versioni precedenti dei record modificati.
-
-
Colonne di partizione
Facoltativamente, è possibile selezionare le colonne di partizione per ottimizzare le prestazioni.
Fare clic su Aggiungi colonna per aggiungere una colonna di partizione, quindi selezionare una Trasformazione e impostare un Parametro se necessario.
-
Gestione conservazione
L'eliminazione delle partizioni rimuove le partizioni più vecchie del periodo di conservazione. Ciò non elimina fisicamente i dati e non influisce immediatamente sugli snapshot meno recenti. I dati meno recenti potrebbero essere disponibili negli snapshot meno recenti fino alla loro scadenza.
Nota informaticaViene visualizzato solo se la partizione ha almeno una colonna data o data/ora.-
Nessuna eliminazione partizione
-
Eliminazione partizione snapshot corrente
-
-
Ordina colonne
Nota informaticaQuesta opzione è disponibile solo quando si seleziona Solo accodamento in Impostazioni di caricamento.Facoltativamente, è possibile specificare le colonne in base alle quali verranno ordinati i dati all'interno di ciascun file della tabella Iceberg. Durante l'acquisizione dei dati, Iceberg utilizza queste colonne per ordinare i record. La definizione di chiavi di ordinamento su colonne utilizzate di frequente nelle query migliora la località dei dati, con conseguenti prestazioni di lettura più rapide e una compressione più efficiente. Le chiavi di ordinamento configurate correttamente assicurano che i dati siano organizzati in modo ottimale per le prestazioni delle query.
Fare clic su Aggiungi colonna per aggiungere una colonna di ordinamento, quindi impostare l'ordinamento.
-
Durata scadenza snapshot
Questa impostazione controlla per quanto tempo vengono conservati gli snapshot, il che influisce in modo significativo sulle dimensioni della tabella e sui costi di archiviazione. Per le tabelle aggiornate di frequente, si consiglia una durata inferiore per contribuire a ridurre i costi di archiviazione.
Nota informaticaInserire 0 per disabilitare la scadenza dello snapshot. -
Intestazioni vista standard
-
Eredita dalle impostazioni dell'attività dati
Questa è l'impostazione predefinita. Disabilitare se si desidera impostare colonne di intestazione specifiche solo per questo set di dati.
-
hdr__from_timestamp
Quando questa opzione è abilitata, la colonna di intestazione hdr__from_timestamp apparirà nelle viste standard. Inoltre, quando si seleziona Partiziona per data di acquisizione dell'evento nella procedura guidata di onboarding, hdr__from_timestamp verrà utilizzata come colonna di partizione predefinita.
Nota informaticaLe viste cronologia includono sempre tutte le colonne di intestazione della vista standard, indipendentemente da questa impostazione.
-