Vai al contenuto principale Passa a contenuto complementare

Processi di ottimizzazione di Iceberg

Ottimizzatore adattivo per Apache Iceberg è un agente intelligente che verifica continuamente i file di dati e ottimizza il modo in cui vengono organizzati e archiviati per ottenere query più veloci e costi di archiviazione inferiori.

Qlik utilizza processi di ottimizzazione per migliorare le prestazioni e la gestibilità delle tabelle Iceberg nel Qlik Open Lakehouse. Questi processi sono progettati per mantenere un'archiviazione efficiente e garantire prestazioni di query di alto livello. Ottimizzando automaticamente il data lakehouse in background, si riduce il sovraccarico operativo richiesto per monitoraggio manuale, risoluzione dei problemi e manutenzione delle attività.

Ottimizzatore adattivo

Ottimizzatore adattivo esegue un'analisi algoritmica per determinare come ottimizzare le tabelle Iceberg al fine di ottenere il massimo impatto. L'agente decide quando e come ottimizzare i dati Iceberg e calcola quando eliminare i file in base a fattori come il profilo dei dati, le proprietà delle tabelle, la frequenza delle modifiche a livello di riga, il costo e le caratteristiche delle prestazioni.

Utilizzando algoritmi avanzati, Ottimizzatore adattivo valuta e combina continuamente questi fattori per generare le migliori ottimizzazioni possibili per ogni tabella, assicurando che la velocità delle query rimanga elevata e i costi di archiviazione siano bassi. Durante l'ingestione e la compattazione, Ottimizzatore adattivo raccoglie e aggiorna le statistiche delle tabelle senza dover analizzare ogni tabella. Queste statistiche aiutano i motori di query nella pianificazione e nell'esecuzione delle query nelle tabelle Iceberg.

Le ottimizzazioni intelligenti si adattano in modo univoco ai dati per migliorare la manutenzione del data lake e le prestazioni delle query. Non tutte le tabelle sono uguali nel data lakehouse, quindi Ottimizzatore adattivo si adatta alle caratteristiche individuali dei dati no elaborati. Struttura, organizza e ottimizza in modo univoco ogni tabella.

I seguenti processi chiave di ottimizzazione vengono eseguiti automaticamente da Qlik e non richiedono alcun intervento:

Compattazione continua

Il processo di compattazione è continuo e ottimizzato specificamente per i dati del flusso, ma supporta tutti i carichi di lavoro. La compattazione comporta i seguenti processi:

  • Monitoraggio e selezione: controlla regolarmente le potenziali opportunità di compattazione.

  • Criteri di ottimizzazione: selezionare le compattazioni che offrono i maggiori guadagni per le prestazioni delle query e la riduzione dei costi previsti. Questa decisione è relativa al costo dell'esecuzione della compattazione, un approccio che garantisce che le tabelle Iceberg rimangano ottimizzate per le prestazioni delle query senza incorrere in inutili costi computazionali.

Scadenza snapshot

Le operazioni Iceberg generano nuovi snapshot che sono disponibili per le query degli utenti. Gli snapshot consentono funzionalità come lo spostamento cronologico. Tuttavia, l'archiviazione di questi snapshot può comportare un aumento dei requisiti di archiviazione. Per gestire questo problema, Qlik rimuove automaticamente i vecchi snapshot. Il processo di pulizia viene eseguito ogni poche ore, assicurando che vengano conservati solo gli snapshot necessari per ottimizzare l'utilizzo dello spazio di archiviazione.

Pulizia dei file tralasciati

I file possono talvolta non essere referenziati o essere "tralasciati" durante le operazioni di Iceberg. I file tralasciati possono accumularsi, con conseguente aumento dei costi di archiviazione. Qlik esegue una pulizia giornaliera dei file tralasciati rilevati, per ridurre i costi di archiviazione aggiuntivi. L'operazione di pulizia individua e rimuove automaticamente i file tralasciati dalla posizione di archiviazione della tabella, mantenendo un ambiente di archiviazione ordinato, efficiente e conveniente.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!