Processus d'optimisation Iceberg
Optimiseur adaptatif pour Apache Iceberg est un agent intelligent qui audite en permanence vos fichiers de données et optimise leur organisation et leur stockage pour accélérer les requêtes et réduire les coûts de stockage.
Qlik utilise des processus d'optimisation pour améliorer les performances et la facilité de gestion des tables Iceberg dans votre Qlik Open Lakehouse. Ces processus sont conçus pour maintenir un stockage efficace et garantir des performances de requête optimales. L'optimisation automatique de votre lakehouse en arrière-plan permet de réduire les coûts de fonctionnement généraux liés aux tâches de surveillance, de dépannage et de gestion manuelles.
Optimiseur adaptatif
Optimiseur adaptatif effectue une analyse algorithmique afin de déterminer la manière d'optimiser vos tables Iceberg pour qu'elles aient le plus d'impact possible. L'agent décide du moment où et de la manière d'optimiser vos données Iceberg et calcule à quel moment supprimer les fichiers en fonction de facteurs tels que le profil des données, les propriétés des tables, la fréquence des modifications au niveau des lignes, les coûts et les caractéristiques de performances.
À l'aide d'algorithmes avancés, Optimiseur adaptatif évalue et combine en permanence ces facteurs afin de produire les meilleures optimisations possibles pour chaque table, en veillant à ce que les vitesses de requête restent élevées et les coûts de stockage faibles. Lors de l'ingestion et du compactage, Optimiseur adaptatif collecte et actualise les statistiques des tables sans qu'il soit nécessaire d'analyser chaque table. Ces statistiques aident les moteurs de requête à planifier et à exécuter des requêtes sur les tables Iceberg.
Des optimisations intelligentes s'adaptent de manière unique à vos données pour améliorer l'hygiène du lac et les performances des requêtes. Toutes les tables ne sont pas égales en termes de création dans votre lakehouse de données ; c'est pourquoi Optimiseur adaptatif s'adapte aux caractéristiques individuelles des données brutes. Il structure, organise et optimise chaque table de manière unique.
Les principaux processus d'optimisation suivants sont exécutés automatiquement par Qlik et ne nécessitent aucune intervention :
Compactage continu
Le processus de compactage est permanent et spécifiquement optimisé pour la diffusion de données en continu, mais il supporte toutes les charges de travail. Le compactage implique les opérations suivantes :
-
Surveillance et sélection : contrôle régulier des éventuelles possibilités de compactage.
-
Critères d'optimisation : sélection des compactages qui offrent les meilleures prédictions de gains de performances des requêtes et de réduction des coûts. Cette décision est liée au coût de réalisation du compactage, une approche qui garantit que les tables Iceberg restent optimisées en matière de performances des requêtes sans encourir de coûts de calcul inutiles.
Expiration des instantanés
Les opérations Iceberg génèrent de nouveaux instantanés qui sont disponibles pour les requêtes utilisateur. Les instantanés permettent des fonctionnalités telles que le voyage dans le temps. Cependant, le stockage de ces instantanés peut entraîner une augmentation des besoins de stockage. Pour y faire face, Qlik supprime automatiquement les anciens instantanés. Le processus de nettoyage s'exécute à des intervalles de quelques heures, garantissant que seuls les instantanés nécessaires sont conservés afin d'optimiser l'utilisation du stockage.
Nettoyage des fichiers « dangling »
Il peut arriver que des fichiers perdent leur référencement (fichiers « dangling » ou non référencés) lors des opérations Iceberg. Les fichiers « dangling » peuvent s'accumuler, entraînant une augmentation des coûts de stockage. Qlik effectue un nettoyage quotidien des fichiers « dangling » détectés afin de réduire les coûts de stockage supplémentaires. L'opération de nettoyage recherche et retire automatiquement les fichiers « dangling » de l'emplacement de stockage de la table pour maintenir un environnement de stockage ordonné et rentable.