使用 Apache Parquet 文件
Apache Parquet 是一种列式存储格式,可高效存储和查询大型数据集。在 Qlik Sense 中,您可以从 Parquet 文件中读取数据,并将表存储为 Parquet 文件。
Parquet 允许有效查询表中的特定列,而不是读取整个表。这使得它非常适合用于大数据处理。此外,Parquet 支持数据的高效压缩和编码。这可以进一步减少存储空间并提高查询性能。
信息注释必须手动更新 August 2023 之前 Qlik Sense 版本中创建的所有现有应用程序,以启用 Parquet 支持。这对于升级到 August 2023 的部署以及将现有应用程序导入新部署时都是必需的。有关更新应用程序的更多信息,请参阅在 Qlik Sense上对现有应用程序启用 Parquet 文件支持。
创建 Parquet 文件
可以使用脚本中的 Store 命令创建 Parquet 文件。在脚本中说明要将先前读取的表格或其部分导出到您选定位置上的一个明确命名文件。
有关更多信息,请参阅Store。
从 Parquet 文件读取数据
您可以像 Qlik Sense 支持的任何其他数据文件一样从 Parquet 文件中读取数据。这包括数据管理器、数据加载编辑器,或者当您将数据添加到新应用程序时。
有关详细信息,请参阅从文件中加载数据。
也可以使用 LOAD 命令从数据加载脚本中的 Parquet 文件加载数据。例如:
LOAD * from xyz.parquet (parquet);
有关更多信息,请参阅 Load。
限制
-
Qlik Sense 不支持嵌套的字段类型。已加载字段,但内容将为 null。
-
可能无法正确加载包含 int96 时间戳字段的 Parquet 文件。
Int96 是一种不推荐使用的数据类型,它包含没有时区信息的时间戳。将尝试将字段读取为 UTC,但由于存在不同的供应商实现,因此无法保证成功。
验证加载的数据,并在需要时使用偏移量将其调整到正确的时区。