Vai al contenuto principale Passa a contenuto complementare

Archiviazione di set di dati in flusso

Le seguenti impostazioni dell'attività di trasformazione in flusso si applicano ai progetti Qlik Open Lakehouse che utilizzano una sorgente di flusso.

È possibile archiviare e trasformare i dati in flusso utilizzando l'attività di trasformazione dati in flusso. I dati in flusso spesso contengono strutture nidificate e array che richiedono l'appiattimento, e le capacità di trasformazione sono necessarie durante la fase di archiviazione. Queste capacità sono disponibili per l'attività di trasformazione in flusso, consentendo di applicare le trasformazioni immediatamente dopo il trasferimento dei dati in flusso.

Gestione della granularità del set di dati

È possibile appiattire strutture nidificate e array per aumentare la granularità. La granularità viene visualizzata nella vista Set di dati. Fare clic su modifica per modificare la granularità:

  • La selezione di un campo da un array farà sì che la tabella di destinazione includa una riga per elemento. Questo aumenterà il numero di righe nel target.

  • È necessario selezionare i campi dallo stesso percorso di array. La selezione di campi da percorsi diversi genererà un errore di convalida.

  • I tipi di dati visualizzati riflettono la granularità selezionata. Ad esempio, un ARRAY<INT> diventa INT quando viene appiattito. Per ulteriori informazioni, vedere Mappature del tipo di dati.

Eliminazione di un'attività

È possibile eliminare l'attività di dati se non è in esecuzione e non ci sono dipendenze da attività downstream nello stesso progetto.

  • Nella vista Progetto pipeline del progetto, fare clic su Altro su un'attività e selezionare Elimina.

Anche gli artefatti (tabelle e viste) creati dall'attività verranno eliminati, a meno che non si scelga di mantenerli.

Nota informaticaTenere presente che gli artefatti che si scelgono di mantenere non verranno più aggiornati dall'attività.

Visualizzazione delle informazioni sull'attività

Fare clic su Informazioni sulla barra dei menu per visualizzare le informazioni sull'attività, ad esempio:

  • Proprietario

  • Spazio

  • Piattaforma dati

  • ID progetto

  • ID tempo di esecuzione attività dati

Impostazioni di Trasformazione flusso

Impostazioni di archiviazione

È possibile impostare le proprietà per l'attività dati di Trasforma dati in streaming quando la piattaforma dati è Qlik Open Lakehouse.

  • Fare clic su Impostazioni.

Impostazioni generali

  • Schema attività

    È possibile modificare il nome dello schema dell'attività di Trasforma dati in streaming. Il nome predefinito è il nome dell'attività di archiviazione.

  • Schema interno

    È possibile modificare il nome dello schema asset di dati di archiviazione interno. Il nome predefinito è il nome dell'attività di archiviazione con _internal aggiunto.

  • Prefisso per tutte le tabelle e le visualizzazioni

    È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.

    Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco.
  • Cartella da utilizzare

    È possibile modificare la cartella di archiviazione dell'attività di Trasforma dati in streaming.

  • Carica impostazioni per i nuovi set di dati

    • Aggiungi solo

      Aggiunge nuovi record senza modificare i dati esistenti.I vincoli chiave non vengono applicati se arrivano record duplicati.

    • Applica modifiche

      Aggiorna i record esistenti e ne inserisce di nuovi in base ai campi chiave.

      Se si sceglie di unire le modifiche, è possibile selezionare anche quanto segue:

      • Elimina record in modo soft fornendo un'espressione di eliminazione

        Definire un'espressione di eliminazione per contrassegnare i record per l'eliminazione.

      • Mantieni i record storici (Tipo 2)

        Mantieni le versioni precedenti dei record modificati.

  • Annullamento annidamento colonna

    • Mantieni colonne annidate

      Seleziona per preservare i dati nidificati.

    • Annulla annidamento in colonne separate

      Il comportamento predefinito è quello di denidificare i dati in colonne separate.

  • Partizione tabelle di destinazione

    Nota informaticaQuesta opzione è disponibile solo quando Solo aggiunta è selezionato in Impostazioni di caricamento.
    • Nessuna partizione

      Le nuove tabelle vengono create senza partizioni.

    • Partizione per data evento

      Le nuove tabelle vengono partizionate in base alla data di acquisizione degli eventi.

  • Gestione modifiche dati

    Nota informaticaQuesta opzione è disponibile solo quando Applica modifiche è selezionato in Impostazioni di caricamento.
    • Includi eliminazioni logiche: immettere un'espressione per definire quali record contrassegnare per l'eliminazione.

    • Crea un archivio dati storico (Tipo 2): in questo modo verranno mantenute le versioni precedenti dei record modificati.

  • Gestione conservazione
    • Nessuna rimozione delle partizioni

    • Rimozione partizione snapshot corrente

Impostazioni del tempo di esecuzione

  • Cluster lakehouse

    È possibile modificare il cluster lakehouse, ma deve supportare carichi di lavoro in streaming o misti.

Impostazioni di evoluzione dello schema

  • Aggiungi colonne a livello radice

    Questa impostazione viene applicata quando nuove colonne vengono aggiunte all'attività di trasferimento in flusso a livello radice.

    • Applica alla destinazione

      Aggiunge automaticamente nuove colonne a livello radice dall'attività di trasferimento in flusso all'attività di trasformazione in flusso. Questa è l'impostazione predefinita.

    • Ignora

      Non aggiunge nuove colonne a livello radice.

    • Arresta attività

      Interrompe l'attività di trasformazione se viene rilevata una nuova colonna a livello radice nell'attività di trasferimento in flusso.

  • Aggiungi colonne alle strutture

    Questa impostazione viene applicata quando i nuovi campi vengono aggiunti all'interno di una struttura annidata esistente nell'attività di trasferimento in flusso.

    • Applica alla destinazione

      Aggiunge automaticamente nuovi campi alle strutture esistenti nell'attività di trasformazione in flusso se vengono aggiunti alla struttura di trasferimento.

    • Ignora

      Non aggiunge nuovi campi alle strutture esistenti.

    • Arresta attività

      Interrompe l'attività di trasformazione se un nuovo campo viene aggiunto a una struttura nell'attività di trasferimento in streaming.

  • Cambia tipo di dati campo

    • Ignora

      Non modifica il tipo di dati.

    • Arresta attività

      Interrompe l'attività di trasformazione se viene rilevata una modifica del tipo di dati nell'attività di trasferimento in streaming.

Impostazioni set di dati

Le seguenti impostazioni sono disponibili per tutti i set di dati nella vista Progettazione > Set di dati.

Fare clic su altro accanto al set di dati e selezionare Impostazioni.

  • Gestione caricamento dati

    Seleziona la modalità in cui i dati vengono caricati nella tabella di destinazione.

    • Aggiungi solo

      Aggiunge nuovi record senza modificare i dati esistenti.I vincoli chiave non vengono applicati se arrivano record duplicati.

    • Applica modifiche

      Aggiorna i record esistenti e ne inserisce di nuovi in base ai campi chiave.

  • Gestione modifiche dati

    Nota informaticaQuesta opzione è disponibile solo quando Applica modifiche è selezionato in Impostazioni di caricamento.
    • Includi eliminazioni temporanee: Immettere un'espressione per definire quali record contrassegnare per l'eliminazione. Deve essere un'espressione che restituisce True se la modifica è un'eliminazione temporanea.

      Esempio: operation = 'D'

    • Crea un archivio dati cronologico (Tipo 2): In questo modo verranno mantenute le versioni precedenti dei record modificati.

  • Colonne partizione

    Facoltativamente, è possibile selezionare le colonne di partizione per ottimizzare le prestazioni.

    Fare clic su Aggiungi colonna per aggiungere una colonna di partizione, quindi selezionare una Trasformazione e impostare un Parametro se necessario.

  • Gestione conservazione

    La rimozione delle partizioni elimina le partizioni più vecchie rispetto al periodo di conservazione. Ciò non elimina fisicamente i dati e non ha un impatto immediato sugli snapshot più vecchi. I dati più vecchi potrebbero essere disponibili negli snapshot più vecchi fino alla loro scadenza.

    Nota informaticaViene visualizzato solo se la partizione ha almeno una colonna di tipo data o datetime.
    • Nessuna rimozione delle partizioni

    • Rimozione partizione snapshot corrente

  • Colonne di ordinamento

    Nota informaticaQuesta opzione è disponibile solo quando Solo aggiunta è selezionato in Impostazioni di caricamento.

    Facoltativamente, è possibile specificare le colonne in base alle quali i dati verranno ordinati in ogni file della tabella Iceberg. Durante l'acquisizione dei dati, Iceberg utilizza queste colonne per ordinare i record. La definizione di chiavi di ordinamento per le colonne utilizzate più di frequente nelle query migliora la localizzazione dei dati, consentendo prestazioni di lettura più rapide e una compressione più efficiente. Le chiavi di ordinamento configurate correttamente assicurano che i dati siano organizzati in modo ottimale per l'esecuzione di query.

    Fare clic su Aggiungi colonna per aggiungere una colonna di ordinamento, quindi impostare l'ordine di ordinamento.

  • Durata scadenza snapshot

    Questa impostazione controlla per quanto tempo le snapshot vengono conservate, il che incide in modo significativo sulle dimensioni della tabella e sui costi di archiviazione. Per le tabelle aggiornate di frequente, si consiglia di definire una durata più breve per ridurre i costi di archiviazione.

    Nota informaticaInserire 0 per disattivare la scadenza della snapshot.

 

 

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!