Iceberg 优化流程
自适应优化器 Apache Iceberg 是一个智能代理,可持续审核您的数据文件并优化其组织和存储方式,以加快查询速度并降低存储成本。
Qlik 使用优化程序来提高 Qlik Open Lakehouse 中 Iceberg 表格的性能和可管理性。这些流程旨在保持高效存储,并确保优质的查询性能。通过在后台自动优化湖空间,可减少手动监控、故障排除和维护任务的运营开销。
自适应优化器
自适应优化器 运行算法分析,以确定如何优化 Iceberg 表格,从而产生最大影响。代理决定何时以及如何优化 Iceberg 数据,并根据数据概况、数据表属性、行级更改频率、成本和性能特征等因素计算何时删除文件。
自适应优化器 采用先进的算法,不断评估和综合这些因素,为每个表提供最佳优化方案,确保查询速度保持在较高水平,存储成本保持在较低水平。在摄取和压缩过程中,自适应优化器 会收集和刷新表统计信息,无需分析每个表。这些统计数据有助于查询引擎规划和执行对 Iceberg 表的查询。
智能优化能自适应您的数据,改善湖卫生状况和查询性能。在数据湖中,并非所有的数据表都一样,因此 自适应优化器 会根据原始数据的各自特点进行调整。它能对每个表进行独特的构造、组织和优化。
以下关键优化过程由 Qlik 自动执行,无需干预:
连续压缩
压缩过程是持续进行的,专门针对数据流进行了优化,但支持所有工作负载。压缩包括
-
监测和选择:定期检查潜在的压缩机会。
-
优化标准:选择能带来最高查询性能提升和成本降低的压缩。这一决定与执行压缩的成本有关,这种方法可确保 Iceberg 表在不产生不必要计算成本的情况下,保持优化的查询性能。
快照过期
Iceberg 操作会生成新的快照,可供用户查询。快照可以实现时间旅行等特性。不过,存储这些快照会导致存储需求增加。为了进行管理,Qlik 会自动删除旧快照。清理过程每隔几小时运行一次,确保只保留必要快照,以优化存储使用。
悬挂文件清理
在 Iceberg 操作过程中,文件有时会出现未引用或“悬挂”的情况。悬挂文件会越积越多,导致存储成本增加。Qlik 对检测到的悬挂文件进行日常清理,以减少额外的存储成本。清理操作会自动查找并删除表格存储位置上的悬挂文件,保持整洁和经济高效的存储环境。