メイン コンテンツをスキップする 補完的コンテンツへスキップ

Iceberg 最適化プロセス

適応型最適化 for Apache Iceberg は、データ ファイルを継続的に監査し、クエリの高速化とストレージ コストの削減のために、データ ファイルの整理と保存方法を最適化するインテリジェントなエージェントです。

Qlik は、Qlik Open Lakehouse の Iceberg テーブルのパフォーマンスと管理性を向上させる最適化プロセスを使用しています。これらのプロセスは、効率的なストレージを維持し、最高のクエリ パフォーマンスを保証するように設計されています。バックグラウンドで自動的にレイクハウスを最適化することで、手動で監視、トラブルシューティング、タスクのメンテナンスを行う運用上のオーバーヘッドを削減します。

適応型最適化

適応型最適化 はアルゴリズム分析により、Iceberg テーブルを最適化する方法を決定します。エージェントは、Iceberg データを最適化するタイミングと方法を決定し、データ プロファイル、データ テーブルのプロパティ、行レベルの変更頻度、コスト、パフォーマンス特性などの要因に基づいて、ファイルを削除するタイミングを計算します。

高度なアルゴリズムを使用して、適応型最適化 はこれらの要素を継続的に評価し、組み合わせて、各テーブルに最適な最適化を行うことで、クエリ速度の高速化とストレージ コストの削減を実現します。インジェストとコンパクションの間、適応型最適化 は、各テーブルを分析することなく、テーブル統計情報を収集し、更新します。これらの統計は、Iceberg テーブルに対するクエリの計画と実行においてクエリ エンジンを支援します。

インテリジェントな最適化により、お客様のデータに独自に適応し、レイク ハイジーンとクエリのパフォーマンスを向上させます。データ レイクハウスでは、すべてのテーブルが同じように作成されるわけではないので、適応型最適化 は生データの個々の特徴に合わせて調整されます。各テーブルを独自に構造化、整理、最適化します。

以下の主要な最適化プロセスは、Qlik によって自動的に実行されるため、介入の必要はありません。

連続コンパクション

コンパクション処理は継続的に行われ、特にストリーム データに最適化されていますが、すべてのワークロードをサポートしています。コンパクションには以下が含まれます。

  • モニタリングと選択: 潜在的なコンパクションの機会を定期的にチェック。

  • 最適化の基準予測されるクエリ パフォーマンスの向上とコスト削減が最も高いコンパクションを選択します。この決定は、コンパクションを実行するコストとの相対的なものであり、Iceberg テーブルが不必要な計算コストを発生させることなく、クエリ パフォーマンスの最適化を維持するためのアプローチです。

スナップショットの有効期限

Iceberg の操作は、ユーザーのクエリに利用可能な新しいスナップショットを生成します。スナップショットはタイムトラベルなどの機能を可能にします。しかし、これらのスナップショットを保存すると、ストレージ要件が増加する可能性があります。これを管理するために、Qlik は自動的に古いスナップショットを削除します。クリーンアップ プロセスは数時間ごとに実行され、必要なスナップショットのみが保持され、ストレージの使用量が最適化されます。

ぶら下がりファイルのクリーンアップ

Iceberg の操作中にファイルが参照されなくなる「ぶら下がり」状態になることがあります。ぶら下がりファイルは蓄積され、ストレージ コストの増加につながります。Qlik は、検出されたぶら下がりファイルのクリーンアップを毎日実行し、追加のストレージ コストを削減します。クリーンアップ操作は、テーブルの保管場所からぶら下がっているファイルを自動的に見つけて削除し、整理整頓された費用対効果の高い保管環境を維持します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。