Utilisation de fichiers Apache Parquet
Apache Parquet est un format de stockage sous forme de colonnes, très efficace pour le stockage et le lancement de requêtes sur de grands ensembles de données. Dans Qlik Sense, vous pouvez lire les données des fichiers Parquet et stocker des tables sous forme de fichiers Parquet.
Parquet permet de lancer efficacement des requêtes sur des colonnes spécifiques d'une table au lieu de lire la table toute entière. Ce format est ainsi facile à utiliser pour le traitement de données volumineuses. De plus, Parquet prend en charge la compression et le chiffrement efficaces des données. Cela permet de réduire davantage l'espace de stockage et d'améliorer les performances des requêtes.
Création de fichiers Parquet
Vous pouvez créer des fichiers Parquet via la commande Store dans le script. Il suffit de spécifier dans le script qu'une table déjà lue en totalité ou en partie doit être exportée vers un fichier nommé de manière explicite à l'emplacement de votre choix.
Pour plus d'informations, voir Store.
Lecture de données à partir de fichiers Parquet
Vous pouvez lire les données d'un fichier Parquet tout comme de n'importe quel autre fichier de données pris en charge par Qlik Sense. Cela inclut le Gestionnaire de données, l'éditeur de chargement de données ou l'ajout de données à une nouvelle application.
Pour plus d'informations, voir Chargement de données à partir de fichiers.
Vous pouvez également charger des données depuis un fichier Parquet dans le script de chargement de données via la commande LOAD. Par exemple :
Pour plus d'informations, voir Load.
Limitations
-
Les types de champ imbriqués ne sont pas pris en charge par Qlik Sense. Les champs sont chargés, mais le contenu sera nul.
-
Il se peut que les fichiers Parquet contenant un champ d'horodatage int96 ne soient pas chargés correctement.
Int96 est un type de données obsolète qui contient un horodatage sans information de fuseau horaire. Il sera effectué une tentative de lecture du champ au format UTC, mais, comme il existe différentes mises en œuvre de fournisseurs, il n'existe aucune garantie que cela fonctionne.
Vérifiez les données chargées et réglez-les sur le fuseau horaire correct avec un décalage, si nécessaire.