Qlik Açık Göl Evi mimarisi
Qlik Açık Göl Evi, Iceberg tabanlı bir lakehouse'da verileri almak, işlemek ve optimize etmek için Qlik Talend Cloud içinde tam olarak yönetilen, uçtan uca bir çözüm sunar. Bu çözüm, düşük gecikmeli sorgu performansı ve uygun ölçekte verimli veri işlemleri sağlar.
Qlik Açık Göl Evi mimarisi, modern bir lakehouse deneyimi sunmak için güvenli iletişim, ölçeklenebilir işlem ve verimli veri işlemeyi bir araya getirir. Qlik Açık Göl Evi, EC2 ve S3 dahil olmak üzere AWS'ye özgü bileşenlerden yararlanır.
Temel bileşenler
Bir Qlik Açık Göl Evi oluşturmak için aşağıdaki varlıklar gereklidir.
Veri Hareket Ağ Geçidi (CDC)
Veri hareket ağ geçidi, şirket içi veya bulut ortamınızda çalışır. RDBMS, SAP veya ana bilgisayarlar gibi kaynak sistemlerden gelen değişiklikleri yakalar ve verileri bir Amazon S3 yerleştirme bölgesine gönderir. Bu, akış kaynakları için gerekli değildir.
Ağ entegrasyon aracısı (EC2 örneği)
Ağ entegrasyon aracısı, buluttaki Qlik hizmetleri ile ortamınızdaki lakehouse kümeleri arasında güvenli iletişimi kolaylaştıran bir EC2 örneğidir. Aracı, ağ entegrasyon süreci sırasında İsteğe Bağlı Örnek olarak otomatik olarak dağıtılır ve tamamen Qlik tarafından yönetilir. Yeni sürümler yayınlandığında otomatik olarak dağıtılır.
Ağ entegrasyonu doğru çalıştığında, Yönetim Etkinlik Merkezi'ndeki Lakehouse kümeleri görünümünde Bağlandı durumu görüntülenir. Bağlantı sorunları ortaya çıkarsa durum Bağlantı kesildi olarak değişir.
Lakehouse kümesi (EC2 Otomatik Ölçeklendirme Grubu)
Lakehouse kümesi, veri işlemeden sorumlu bir AWS EC2 örnekleri grubudur. Küme örnekleri, yerleştirme alanından gelen verileri işlemek için iş yüklerini koordine edip yürütür ve işlemden sonra verileri hedef konumda Iceberg biçiminde depolar.
Ağ entegrasyonunuzun kurulumu sırasında tek bir AWS Spot Örneğine sahip bir lakehouse kümesi otomatik olarak oluşturulur. Devam eden lakehouse gereksinimlerinizi desteklemek için ek kümeler yönetebilir ve oluşturabilirsiniz. Bir kümeyi yapılandırdığınızda, veri işleme gereksinimlerini karşılamak üzere sunucuları oluşturması, başlatması, durdurması, ölçeklendirmesi veya geri alması için Qlik'e izin verirsiniz. Her küme tek bir ağ entegrasyonuyla ilişkilendirilir, ancak aynı ağ entegrasyonu içinde birden fazla küme çalışabilir. Tek bir küme birçok lakehouse görevini çalıştırabilir.
Bir AWS Spot Örneği, normal örneklere göre daha düşük bir maliyetle yedek Amazon EC2 kapasitesini kullanır ancak AWS tarafından çok az bir bildirimle kesintiye uğratılabilir. Varsayılan olarak Qlik, veri işleme için geçici Spot Örnekleri sağlar. AWS Spot pazarında yeterli Spot Örneği yoksa Qlik, sürekliliği sağlamak için otomatik olarak İsteğe Bağlı Örnekleri kullanır. Sistem, kullanılabilir olduklarında Spot Örneklere geri döner. Lakehouse küme teknolojisi, işleri düğümler arasında taşıyarak Spot ve İsteğe Bağlı örnekler arasında sorunsuz bir şekilde geçiş yapacak şekilde tasarlanmıştır. Bu işlem manuel müdahale gerektirmeden otomatik olarak gerçekleşir. Küme ayarlarında, kümede kaç tane Spot ve İsteğe Bağlı örnek kullanılacağını yapılandırabilirsiniz. Spot Örneklerinden yararlanmak, Qlik Açık Göl Evi çözümünüzün devam eden işlem maliyetlerini azaltmaya yardımcı olur.
Kullanılacak Spot ve İsteğe Bağlı örneklerin sayısını tanımlamanın yanı sıra, projeniz için iş yüküne ve bütçeye en uygun ölçeklendirme stratejisini yapılandırabilirsiniz. Bir kümeye aşağıdaki ölçeklendirme stratejileri uygulanabilir:
-
Düşük maliyet: Geliştirme veya QA ortamları ve güncel, gerçek zamanlı verilere bağlı olmayan iş yükleri için idealdir. Qlik maliyeti mümkün olduğunca düşük tutmaya çalışır, bu da zaman zaman yüksek gecikme sürelerine neden olur.
-
Düşük gecikme: Neredeyse gerçek zamanlı veri güncelliğinin kabul edilebilir olduğu, görev açısından kritik olmayan iş yükleri için tasarlanmıştır. Bu strateji düşük gecikmeyi hedeflerken, kısa süreli ani artışlar yaşanabilir.
-
Tutarlı düşük gecikme: Gerçek zamanlı veri güncelliğine sahip olması gereken yüksek ölçekli verilere sahip üretim ortamları için uygundur. Qlik, düşük gecikme sağlamak için örnekleri proaktif olarak ölçeklendirir, bu da daha yüksek maliyetlere neden olabilir.
-
Ölçeklendirme yok: Tutarlı bir veri hacmini işleyen iş yükleri için iyi bir seçenektir. Otomatik ölçeklendirme olmadan statik sayıda örneği ve öngörülebilir maliyetleri korumak için bu seçeneği belirleyin.
Amazon S3 demetleri
Amazon S3 demetleri aşağıdaki gibi kullanılır:
-
Yerleştirme verisi demeti: Ham CDC verileri, dönüştürmeden önce bir S3 demetine yerleştirilir.
-
Yapılandırma demeti: Lakehouse sistemi tarafından kullanılan meta verileri ve yapılandırmaları depolar.
-
Iceberg tablo depolaması: Veriler Iceberg biçimli tablolarda depolanır ve optimize edilir. Kullanılan demet, projenin katalog Bağlantısı tarafından belirlenir.
Üst düzey akış
İlk kurulum
-
VPC ve altyapı sağlama - Qlik belgelerindeki talimatları izleyerek AWS hesabınızda alt ağlar, S3 demetleri ve IAM rolleriyle birlikte bir VPC yapılandırın.
-
Ağ entegrasyonu yapılandırması - Kiracı yöneticisi, önceden sağlanan altyapı ayrıntılarını kullanarak Qlik Talend Cloud içinde bir ağ entegrasyonu oluşturur.
-
Qlik bileşenlerinin dağıtımı - Qlik, VPC'niz içinde veri düzlemi ağ geçidini ve bir lakehouse kümesini otomatik olarak sağlar.
-
İletişim kurma - Veri düzlemi ağ geçidi, Qlik Talend Cloud ile güvenli bir şekilde iletişim kurar.
-
Ağ geçidi dağıtımı - Veri düzlemi VPC'si de dahil olmak üzere şirket içinde veya bulut ortamınızda bir Veri Hareket Ağ Geçidi (CDC) dağıtın.
-
Çalışmaya hazır - Kurulum tamamlandığında erişim izinlerine göre Qlik Açık Göl Evi projeleri ve görevleri oluşturabilir ve yönetebilirsiniz.
Bir Qlik Açık Göl Evi projesi oluşturma
Aşağıdaki görev türleri mevcuttur:
Yerleştirme verisi görevi
-
Kaynak yapılandırması - Veri hareket ağ geçidi; RDBMS, SAP, ana bilgisayarlar ve daha fazlası dahil olmak üzere kaynak sistemlerden gelen değişiklikleri yakalayacak şekilde yapılandırılır.
-
Veri yerleştirme - CDC görevi, ham değişiklik verilerini AWS hesabınızda belirlenen S3 yerleştirme demetine sürekli olarak gönderir.
Depolama verisi görevi
-
Bir Iceberg katalog Bağlantısı kaydedin, örneğin AWS Glue Data Catalog.
-
Qlik Talend Cloud içinde bir depolama görevi tanımlayın.
-
Qlik Talend Cloud, görev tanımlarını veri düzlemi ağ geçidine gönderir.
-
Veri düzlemi ağ geçidi, görev talimatlarını güvenli bir şekilde Qlik lakehouse kümesine iletir.
-
Küme, S3'teki bir yerleştirme demetinden ham verileri sürekli olarak okur, işler ve çıktıyı S3'teki Iceberg tablolarına yazar.
-
Lakehouse kümesi, lakehouse kümesi ayarlarındaki önceden tanımlanmış tercihlere göre yüke bağlı olarak otomatik olarak yukarı veya aşağı ölçeklenir.
-
İzleme verileri Qlik Talend Cloud'a gönderilir ve günlükler ile metrikler Qlik'e iletilir.
Yansıtma verisi görevi
Veri gölünüzde depolanan verilerin çoğaltılmadan bulut veri deposu üzerinden sorgulanmasını sağlamak için harici Iceberg tabloları oluşturabilirsiniz. Bu, S3 üzerinde Parquet gibi biçimlerde depolanan Iceberg yönetimli verilerin üzerinde veri ambarı analitik motorunuzu kullanmanıza olanak tanır. Verileri veri ambarınıza çoğaltmak yerine harici tablolara başvurarak depolama maliyetlerini azaltır, tek bir doğruluk kaynağını korur ve lakehouse ile ambar ortamları arasında tutarlılık sağlarsınız.
Ağ entegrasyonunuz ile Qlik Talend Cloud arasındaki iletişim
Ağ entegrasyonu, Qlik Talend Cloud'a giden güvenli bir Bağlantı (HTTPS) kurar. Başarılı bir şekilde kabul edildikten sonra Bağlantı güvenli bir Web soketine (WSS) dönüştürülür. Lakehouse'a özgü görev komutlarını ve kontrollerini almak için ağ entegrasyonu ile Qlik Talend Cloud arasında ek, özel bir iletişim kanalı (WSS) kurulur. Ağ entegrasyonu, verilerle ilgili olayları almak ve göndermek için periyodik olarak Qlik Talend Cloud ile güvenli bir Bağlantı (HTTPS) kurar. Metrikler ve günlükler, lakehouse kümelerinden Qlik'e gönderilir.
Verilerinizin güvende olmasını sağlamak için aşağıdaki önlemler alınır:
-
Ağ entegrasyonunuzdan Qlik Talend Cloud'a giden tüm bağlantılar dışa dönüktür. Gelen erişim gerekmez.
-
Meta veriler, komutlar ve kontrol istekleri, HTTPS ile güvence altına alınmış iletişim kanalları kullanılarak iletilir ve ağ entegrasyonu ile Qlik Talend Cloud arasında ek bir şifreleme katmanı oluşturulur.
-
Tüm veri akışı size ait kaynaklar arasında gerçekleşir. Veriler hiçbir zaman Qlik Talend Cloud'a gönderilmez. Örneğin tablo ve sütun adları gibi meta veriler, görev tanımlarına izin vermek için Qlik Talend Cloud'a gönderilir.
-
Veriler Qlik'e gönderilmeden önce anonimleştirilir. Qlik, günlüklerin veya metriklerin bir sorunu göstermesi durumunda sizi proaktif olarak desteklemek için anonimleştirilmiş verileri kullanır.
Veri kümesi mimarisi
Bir Qlik Açık Göl Evi İşlem hattı projesindeki bir veri kümesinin mimarisi, veri kaynağı tarafından belirlenir. Daha fazla bilgi için aşağıdakilere bakın: