Arbeiten mit Apache Parquet-Dateien
Apache Parquetist ein Spalten-Speicherformat, das sehr effizient beim Speichern und Abfragen großer Datensätze ist. In Qlik Sense kann aus Parquet-Dateien gelesen werden, und Sie können Tabellen als Parquet-Dateien speichern.
Parquet ermöglicht effiziente Abfragen spezifischer Spalten in einer Tabelle, anstatt die ganze Tabelle zu lesen. Dadurch eignet sich das Format gut für die Big Data-Verarbeitung. Parquet unterstützt auch die effiziente Komprimierung und Verschlüsselung von Daten. Dadurch kann der Speicherplatz weiter reduziert und die Abfrageleistung gesteigert werden.
Erstellen von Parquet-Dateien
Sie können Parquet-Dateien mit dem Befehl Store im Skript erstellen. Dazu definieren Sie im Skript, dass eine bereits eingelesene Tabelle oder ein Teil davon in eine Datei exportiert werden soll, deren Namen und Speicherort Sie bestimmen. Sie können die zu speichernden Daten in Daten in Parquet-Dateien verschachteln.
Weitere Informationen finden Sie unter Store.
Daten aus Parquet-Dateien einlesen
Sie können Daten aus einer Parquet-Datei genau wie aus jeder anderen von Qlik Sense unterstützten Datendatei lesen. Dies umfasst Datenmanager, Dateneditor oder das Hinzufügen von Daten zu einer neuen App.
Weitere Informationen finden Sie unter Laden von Daten aus Dateien.
Sie können auch Daten aus einer Parquet-Datei mit dem Befehl LOAD in das Datenladeskript laden. Zum Beispiel:
Weitere Informationen finden Sie unter Load.
Laden von Daten aus verschachtelten Parquet-Dateien
Wenn eine Parquet-Datei verschachtelte Daten enthält, muss sie in mehreren load-Anweisungen geladen werden, wobei jede angibt, welcher Teilsatz in welche Tabelle geladen wird. Der Spezifikator Table is wird zum Angeben eines Pfad zum Gruppenknoten des zu ladenden Schemas verwendet.
Sie können den Spezifikator Trennzeichen ist verwenden, um anzugeben, wie Knoten kombiniert werden sollten. Ein Befehl LOAD, der eine Datei mit verschachtelten Daten ohne „Trennzeichen ist“ lädt, verwendet diesen Wert, der von der Skriptvariablen FieldNameDelimiter angegeben wird. Wenn kein Trennzeichen angegeben ist und FieldNameDelimiter nicht festgelegt ist, ist das Standardtrennzeichen '.'.
Nur Knoten, die dem Table is-Pfad entsprechen, werden geladen.
Datenknoten werden ohne Verschachtelung in eine Datei geladen.
Mit Gruppenknoten werden die Felder in der Gruppe gruppiert, indem ihr Name zum Feldnamen hinzugefügt wird. Beispielsweise wird eine Gruppe mit field1 und field2 als group.field1 und group.field2 geladen.
Listenknoten generieren Schlüsselfelder, die zum Verknüpfen der Tabellen verwendet werden. Beispiel: %Key_group.list. Alle Gruppen oder Datenknoten in der Liste müssen in einer getrennten load-Anweisung geladen werden. Ein Schlüsselfeld zur übergeordneten Liste wird ebenfalls hinzugefügt.
Die folgenden Beispiele zeigen die gleiche verschachtelte Parquet-Datei, die im Beispiel in Speichern von verschachtelten Daten in Parquet-Dateien erstellt wurde, mit Datenmanager und Dateneditor in eine App geladen (mit dem Standard-Skript aus „Daten auswählen“ und benutzerdefinierten Skriptteilen).
Beispiel: Datenmanager
Wenn Sie customer.parquet in Datenmanager laden und alle empfohlenen Verknüpfungen anwenden, erhalten Sie folgendes Datenmodell:
Beispiel: Dateneditor (Daten auswählen)
Wenn Sie die Daten mit Daten auswählen in Dateneditor laden, erhalten Sie folgendes Skript:
Das Datenmodell sieht jetzt in Datenmodellansicht folgendermaßen aus.
Beispiel: Dateneditor (benutzerdefiniertes Ladeskript)
Wenn Sie ein benutzerdefiniertes Ladeskript verwenden, haben Sie mehr Kontrolle darüber, wie die Felder und Tabellen aus customer.parquet geladen werden. Mit dem folgenden Ladeskript werden die Tabellen und Felder aus company.parquet geladen:
Dies generiert das folgende Datenmodell, das mit dem ursprünglichen Datenmodell vor Speichern der Daten in der Parquet-Datei identisch ist.
Beschränkungen
Parquet-Dateien haben die folgenden Beschränkungen:
-
Parquet-Dateien mit einem int96-Zeitstempelfeld werden möglicherweise nicht korrekt geladen.
Int96 ist ein veralteter Datentyp, der einen Zeitstempel ohne Zeitzoneninformationen enthält. Es wird ein Versuch unternommen, das Feld als UTC zu lesen, aber da es verschiedene Anbieterimplementierungen gibt, kann der Erfolg nicht garantiert werden.
Prüfen Sie die geladenen Daten und passen Sie sie an die korrekte Zeitzone an, bei Bedarf mit einem Versatz.