Bilgi birikimi ambarları oluşturma
Bilgi birikimi ambarları oluşturmak, yapılandırılmış ve yapılandırılmamış verilerinizi bir vektör veritabanına yerleştirmenize ve depolamanıza olanak tanır. Bu, artırılmış bağlamın, Almayla Artırılmış Üretim (RAG) uygulamaları için bir bağlam olarak kullanılmak üzere anlamsal arama özellikleriyle alınmasını sağlar.
RAG, LLM'ye sorguyla birlikte ek bağlam sağlayarak LLM çıktısını optimize eder.
Gereksinimler
-
Qlik Talend Cloud Enterprise aboneliğine ihtiyacınız vardır.
-
Snowflake ve Databricks platformlarında desteklenir. Snowflake Iceberg desteklenmez.
-
Müşteri tarafından yönetilen bir veri ağ geçidi gereklidir.
Databricks, Qlik Data Gateway - Veri Hareketi sürüm 2024.11.95 veya sonraki bir sürümü gerektirir.
Qlik Data Gateway - Veri Hareketi uygulamasını yükleme
Bilgi birikimi ambarlarını kullanmak için vektör veritabanlarına ve LLM bağlantılarına bağlanmanız gerekir, bu da belirli bir Qlik Data Gateway - Veri Hareketi yüklemenizi gerektirir. Daha fazla bilgi için şuraya bakın: Bilgi birikimi ambarları için Qlik Data Gateway - Veri Hareketi ayarlama.
Günlükleri görüntüleme ve indirme
Bilgi birikimi ambarları için günlükleri görüntüleyebilir ve indirebilirsiniz. Daha fazla bilgi için şuraya bakın: Sorun giderme Veri Hareketi ağ geçidi.
Ön koşullar
Aşağıdaki türlerdeki veri görevlerini bir bilgi ambarı için kaynak olarak kullanabilirsiniz:
-
Depolama
-
Dönüştürme
Bir bilgi ambarı oluşturmadan önce, kaynak veri görevlerinde aşağıdakileri yapmanız gerekir:
- Veri kümelerini, bilgi ambarınızda kullanmak istediğiniz verilerle doldurun. Daha fazla bilgi için şuraya bakın: Veri ambarına veri ekleme.
-
Kaynak veri kümeleri arasındaki ilişkileri tanımlamak için bir veri kümesi ilişkisel modeli oluşturun. Daha fazla bilgi için şuraya bakın: Veri modeli oluşturma.
Uyarı notuTüm kaynak veri kümeleri anahtar içermelidir.
Bilgi birikimi ambarları için Databricks platformunu yapılandırma
Veri platformu olarak Databricks kullanıyorsanız bilgi birikimi ambarları oluşturabilmek için Databricks platformunda bazı yapılandırmalar yapmanız gerekir.
-
Databricks platformunda bir SQL deposu oluşturun. Sunucusuz İşlem kullanılması önerilir.
Depolama entegrasyonunu etkinleştirmek üzere SQL Depoları ve Sunucusuz İşlem için Veri Güvenliği'ni de yapılandırmanız gerekir.
-
Vektör Araması içinde bir uç nokta oluşturun. Bilgi birikimi ambarı görevinde, Vektör veritabanı ayarları içinde bu uç noktanın adına başvurursunuz.
Performans gereksinimlerinize göre Tür seçimi yapın. Standart, çoğu kullanım durumu için uygundur.
Gerekirse maliyet ilişkilendirmesi için etiketleri ilişkilendirmek üzere bir Sunucusuz Kullanım İlkesi tanımlayın.
-
Databricks modellerini Sunum içinde yapılandırın.
Sunum Uç Noktaları altında, Databricks platformunda bulunan LLM Yerleştirmeleri ve Sohbet Modelleri'ni kullanabilirsiniz. Veri işlem hattınızda kullanmayı planladığınız modelleri doğruladığınızdan emin olun.
Ayrıca özel bir model için bir Sunum Uç Noktası oluşturabilir veya OpenAI ya da Azure OpenAI gibi bir Temel Model kullanabilirsiniz.
Örnekler:
Yerleştirme Modeli: databricks-gte-large-en
Sohbet/Tamamlama Modeli: databricks-meta-llama-3-1-405b-instruct
Sınırlamalar
Tüm bu koşullarla eşleşen kaynak veri kümelerini kullanırken sınırlamalar geçerlidir:
-
SQL dönüşümü veya bir dönüşüm akışı tarafından oluşturuldu
-
Gerçekleşmedi
-
Geçmiş Veri Depolaması (2. Tür) kapalı
Bu veri kümelerinin her çalıştırmada güncellendiği kabul edilir ve bu da verimliliği ve maliyeti etkileyebilir. Bunu şu şekilde azaltabilirsiniz:
-
Gerçekleştirilecek kaynak veri kümelerini değiştirme.
-
Açık veri kümesi dönüşümlerini kullanma.
-
Birden fazla veri kümesini dönüştüren genel kurallar oluşturma.
Desteklenen kodlama biçimi
Dosyalarınız UTF-8 biçiminde düzgün bir şekilde kodlanmalıdır. Diğer biçimler yanlış yorumlanabilir.
Desteklenen karakterler
Dosya ve klasör adları aşağıdaki karakterleri içerebilir:
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
Diğer özel karakterler de desteklenebilir, ancak önemli özel karakter kullanımı nedeniyle yalnızca yukarıdaki listedeki karakterlerin kullanılması önerilir.
İlişkiler
-
İki veri kümesinden gelen verileri ilişkilendirmek mümkün değildir. Veri modelindeki ilişkiyi tanımladığınız bir dönüştürme görevi oluşturun ve dönüştürme görevini görev için kaynak olarak kullanın.
-
Veri modelinde iki veri kümesi ilişkilendirildiğinde, veri kümelerinden yalnızca birini seçmiş olsanız bile her iki veri kümesi de görevde kullanılabilir olacaktır.
Bağlantıları veya veri ağ geçidini değiştirme
Vektör bağlantısını veya vektör veri ağ geçidini değiştirirseniz, görevi yeniden hazırlamanız gerekir.
Sorun giderme
OneDrive'a taşınan dosyalar Dosya bilgi merkezi tarafından tanınmaz.
Olası neden:
Dosyalar, eski dosya oluşturma ve değiştirme tarihini koruyan seçenekler kullanılarak OneDrive'a taşınır veya eşitlenirse, dosya yeni bir dosya olarak tanınmaz.
Önerilen eylem
Dosya değiştirme tarihini geçerli tarihe değiştirin.
Pinecone kullanırken çalışma zamanı hatası
Olası neden:
Meta veri sütunlarındaki NULL değerler Pinecone tarafından desteklenmez. Sonuç bir çalışma zamanı hatası olacaktır.
Önerilen eylem
-
Bilgi martından önceki bir dönüşümde, NULL değerleri örneğin boş bir dizeye veya NULL kelimesine dönüştürün.
-
Başka bir vektör veritabanı kullanın.
-
Sütunu meta veri olarak kullanmayın.