Apache Parquet ファイルでの作業

Apache Parquet は、大きいデータセットの保存とクエリに非常に効率的な列型ストレージフォーマットです。Qlik Sense では、Parquet ファイルからのデータを読み込み、Parquetファイルとしてテーブルを保存できます。

Parquet を使用すると、テーブル全体を読み込むのではなく、テーブル内の特定の列を効率的にクエリできます。これは、大きなデータの処理に適しています。また、Parquet はデータの効率的な圧縮とエンコーディングをサポートします。これにより、さらにストレージスペースを削減して、クエリパフォーマンスを改善できます。

August 2023より前の Qlik Sense のバージョンで作成されたすべての既存のアプリは、Parquet のサポートを有効にするために手動で更新する必要があります。これは、August 2023 にアップグレードする展開と、既存のアプリを新しい展開にインポートする場合の両方で必要になります。アプリの更新の詳細については、「Qlik Sense で既存のアプリに対する Parquet ファイルのサポートを有効にする」を参照してください。

Parquet ファイルの作成

スクリプトで Store コマンドを使用して Parquet ファイルを作成できます。スクリプトで、以前に読み取ったテーブルまたはその一部を、選択した場所にある明示的に指定されたファイルにエクスポートするように記述します。Parquet ファイルのデータに保存するデータをネストできます。

詳細については、「Store」を参照してください。

Parquet ファイルからのデータのロード

Parquet ファイルからのデータを、Qlik Sense でサポートされているその他のデータと同様に読み込むことができます。これには、データマネージャー、データロードエディター、またはデータを新しいアプリに追加するタイミングが含まれます。

詳細については、「ファイルからのデータのロード」を参照してください。

また、LOAD コマンドを使って、Parquet ファイルからのデータをデータロードスクリプトにロードできます。例:

LOAD * from xyz.parquet (parquet);

詳細については、「 Load」を参照してください。

ネストされた Parquet ファイルからのデータのロード

Parquet ファイルにネストされたデータが含まれている場合は、複数の Load ステートメントでロードする必要があり、各テーブルにどのサブセットをロードするかを指定します。Table is 指定子は、ロードされるスキーマのグループノードへのパスを証明するために使用されます。

Table is パスに一致するノードのみがロードされます。

データノードはネストなしでファイルにロードされます。

グループノードは、項目名に名前を追加することで、グループ内の項目をグループ化します。たとえば、field1 と field2 を含むグループは、group.field1 および group.field2 としてロードされます。

リストノードは、テーブルのリンクに使用されるキー項目を生成します。例: %Key_group.list。リスト内のグループまたはデータノードは、別の Load ステートメントでロードする必要があります。親リストへのキー項目も追加されます。

次の例では、ネストされたデータを Parquet ファイルに保存する の例で作成されたのと同じネストされた Parquet ファイルを、データマネージャーとデータロードエディターを使用してアプリにロードしたものを示しています (選択データとカスタムスクリプトによる既定のスクリプトを使用)。

データマネージャー

データマネージャーで customer.parquet をロードし、推奨される関連付けをすべて適用すると、次のデータモデルが得られます。

company:salesrep.salesrep、company、company:headquard.headquard、company:headquard.headquart.city:region.region のテーブルを示すデータモデル — データマネージャーを使用して company.parquet をロードするためのデータモデル

データロードエディター (データを選択)

データロードエディターで [データを選択] を使用してデータをロードすると、次のスクリプトが作成されます。

LOAD company, contact, "%Key_company:headquarter", "%Key_company:salesrep" FROM [lib://AttachedFiles/company.parquet] (parquet); LOAD country, city, "%Key_city:region", "%Key_company:headquarter" FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:headquarter.headquarter]); LOAD region, "%Key_city:region" FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:headquarter.headquarter.city:region.region]); LOAD salesrep, "%Key_company:salesrep" FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:salesrep.salesrep]);

データモデルビューアのデータモデルは次のようになります。

salesrep、company、headquarter、region のテーブルを示すデータモデル。 — データロードエディターで [データを選択] を使用して company.parquet をロードするためのデータモデル

データロードエディター (カスタムロードスクリプト)

カスタムロードスクリプトを使用すると、項目とテーブルが customer.parquet からロードされる方法をより詳細に制御できます。次のロードスクリプトは、company.parquet からテーブルと項目をロードします。

LOAD * FROM [lib://AttachedFiles/company.parquet] (parquet); LOAD *, Lookup('company', '%Key_company:salesrepo', [%Key_company:salesrep], 'company') as company; LOAD * FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:salesrep.salesrep]); DROP FIELD [%Key_company:salesrep]; LOAD *, Lookup('company', '%Key_company:headquarter', [%Key_company:headquarter], 'company') as company; LOAD * FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:headquarter.headquarter]); DROP FIELD [%Key_company:headquarter]; LOAD *, Lookup('city', '%Key_city:region', [%Key_city:region], 'headquarter') as city; LOAD * FROM [lib://AttachedFiles/company.parquet] (parquet, table is [company:headquarter.headquarter.city:region.region]); DROP FIELD [%Key_city:region];

これにより、次のデータモデルが作成されます。これは、データが Parquet ファイルに保存される前の元のデータモデルと同一です。

headquarter、region、salesrep、company の各テーブルを持つデータモデル。ソースアプリのデータモデルを正確にミラーリングします。 — データロードエディターでカスタムスクリプトを使用して company.parquet をロードするためのデータモデル

制限事項

Parquet には、次の制限事項があります。

int96 タイムスタンプフィールドを含む Parquet ファイルは、正しくロードされない可能性があります。

Int96 は、タイムゾーン情報を含まないタイムスタンプを含む非推奨のデータ型です。フィールドを UTC として読み込むよう試行されますが、異なるベンダー実装があるため、成功は保証されません。

ロードされたデータを検証して、必要に応じてオフセットを使い、正しいタイムゾーンに合わせて調整します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください