Dosya tabanlı bir bilgi birikimi ambarı oluşturma
Dosya tabanlı bilgi birikimi ambarları, yapılandırılmamış verilerinizi bir vektör veritabanına yerleştirmenize ve depolamanıza olanak tanır. Bu, artırılmış bağlamın, Almayla Artırılmış Üretim (RAG) uygulamaları için bir bağlam olarak kullanılmak üzere anlamsal arama özellikleriyle alınmasını sağlar.
Desteklenen giriş biçimleri şunlardır: PDF
, TXT
ve Word DOCX
.
Qlik Data Gateway - Data Movement uygulamasını yükleme
Dosya tabanlı bilgi birikimi ambarları oluşturmadan önce, belirli bir Qlik Data Gateway - Data Movement yüklemeniz gerekir. Daha fazla bilgi için bk. Bilgi birikimi ambarları için Qlik Data Gateway - Data Movement ayarlama.
Desteklenen bağlantılar
Desteklenen şu öğeler hakkında bilgi için:
- Vektör veritabanları, bkz. Vektör veritabanlarına bağlanma.
- LLM bağlantıları, bkz. LLM bağlantılarına bağlanma.
- Dosya depolama alanı, bkz. Dosya depolamasına bağlanma.
Dosyaları oluşturma
- Sol menüdeki Projeler'e tıklayın ve bir proje açın.
- Proje sayfasından, dosya tabanlı bir bilgi birikimi ambarı oluşturabilirsiniz. Şu iki eylemden birini yapın:
- Yeni oluştur > Dosya tabanlı bilgi bankası ambarı'na tıklayın.
- Veri görevi
> Dosya tabanlı bilgi bankası ambarı seçeneğine tıklayın.
Yapılandırma penceresi açılır.
- Bir ad girin.
- Açıklama girin. Bu isteğe bağlıdır.
- Bir Kaynak bağlantısı oluşturun veya seçin.
-
Vektörleri şurada sakla: açılır listesinden belgelerin depolanacağı yeri seçin. Belgeleri projeyle birlikte saklamak için Veri projesi platformu'nu seçin.
- Harici vektör veritabanını seçtiyseniz bir Vektör veritabanı bağlantısı oluşturun veya seçin. Belgeler ve vektörler bu vektör veritabanında saklanacaktır.
- Bir LLM bağlantısı oluşturun veya seçin. Bu bağlantı anlamsal aramayı kullanmak için gereklidir.
- Oluştur'a tıklayın.
- Bilgi birikimi ambarı oluşturulduğunda, belgeleri ekleyin.
Dosyalar ekleme
- Veri görevi sayfasının Klasörler sekmesinde bir klasör seçin veya yeni bir klasör seçmek için Klasör seç'e tıklayın.
- Klasöre göz atın, klasörün onay kutusunu seçin.
Klasörlerdeki tüm dosyalar, klasöre ne zaman eklendiklerine bakılmaksızın, desteklenen biçimlerden birindeyse okunacaktır.
Dizinde zaten var olan bir dosyayı bir klasörden sildiğinizde, veriler dizinde kalır. Verileri dizinden kaldırmak için aynı dosyayı kullanın ancak boş bırakın.
Klasördeki dosyaların listesini görüntülemek için klasöre sağ tıklayın.
- Klasör seç penceresini kapatmak için Kaydet'e tıklayın.
- Yığın boyutunu ve yığın çakışmasını düzenlemek için Ayarlar > Çalışma zamanı'na tıklayın.
- Dizin adını düzenlemek için Ayarlar > Vektör veritabanı ayarları'na tıklayın.
Daha fazla bilgi için bk. Dizin adı.
- Sağ taraftaki
> Hazırla öğesine tıklayın.
- Hazırlık tamamlandığında Çalıştır'a tıklayın. Belgeler ekleniyor ve aktarılıyor.
Çalıştır düğmesi etkin olduğunda aktarım tamamlanır.
- İlk tam yükte her bir dosyanın durumunu doğrulayın:
- Menüden İzle'yi seçin.
- Sayfanın altındaki Tam yük durumu'nu seçin.
- Bazı dosyalar başarısız olduğunda ve her şeyi yeniden çalıştırmadan önce, hataları düzeltin veya dosyaları silin. Dosyaları hatalı olarak tutarsanız sonraki çalıştırmalar başarısız olur.
Bilgi notuTüm dosyaların yeniden yüklenmesi ekstra maliyetlere neden olabilir.
Dosyalarınız doğru olduğunda, verileriniz hakkında sorular sorabilirsiniz. Daha fazla bilgi için bk. Test asistanını kullanma.
Tam yük ve Değişiklik verisi yakalama (CDC)
Tam yük ve CDC desteklenmektedir.
Tam yük: Her belge örneği için bir belge oluşturulur ve hedefe gönderilir.
CDC: Bir belge, herhangi bir değişiklikten sonra yeniden oluşturulur.
Bir dosya değiştirildiğinde veya eklendiğinde, belgeler bu dosyadan okunur. Dosya, yığın boyutuna ve çakışmaya göre yığın belgelerine bölünecektir.
İlk tam yükte her bir dosyanın durumunu doğrulayın:
- Menüden İzle'yi seçin.
- Sayfanın altındaki Tam yük durumu'nu seçin.
- Bazı dosyalar başarısız olduğunda ve her şeyi yeniden çalıştırmadan önce, hataları düzeltin veya dosyaları silin. Dosyaları hatalı olarak tutarsanız sonraki çalıştırmalar başarısız olur.
Giriş verilerini güncelleme
Giriş verilerini güncellediğinizde, değişiklikleri vektör veritabanına veya veri platformuna aktarmak için veri görevini çalıştırmanız gerekir.
Eski yığınlar silindiğinden ve yeni parçalar eklendiğinden, hdr__operation
alanı bir güncelleme işlemine değil, ekleme işlemine karşılık gelir. Daha fazla bilgi için bkz. Bir bulut veri deposundaki veri kümesi mimarisi.
Dizin adı
Her bilgi birikimi ambarının anlamsal arama için kullanılan bir dizin adı vardır.
Görevleri aynı dizine yazacak şekilde yapılandırdığınızda, görevler için aynı LLM parametrelerini yapılandırmanız gerekir.
Belgelerinizin aynı dizinde yer almasını istiyorsanız aynı dizin adına sahip olmaları gerekir.
Dizin adını düzenlemek için:
- Veri görevi sayfasında Ayarlar'a tıklayın.
- Vektör veritabanı ayarları sekmesini seçin.
- Dizin adı'nı düzenleyin.
- Tamam üzerine tıklayın.
Dizin adını düzenledikten sonra görevi hazırlamanız gerekir. Aksi takdirde, değişiklikleriniz sonraki çalıştırmalarda geçerli olmayacaktır.
Ayarlar
Bir bilgi birikimi ambarının ayarlarını görüntüleyebilir ve düzenleyebilirsiniz.
Veri görevi sayfasından > Ayarlar'a tıklayın.
Ayarlar | Açıklama |
Kaynak bağlantısı | Kaynak bağlantısı. |
Vektörleri şurada sakla: | Açılan listeden bir şunu seçin:
|
Vektör veritabanı bağlantısı Bu ayar, Vektörleri şurada sakla: için Harici vektör veritabanı seçildiğinde kullanılabilir. | Vektör veritabanı bağlantısı. Daha fazla bilgi için bk. Vektör veritabanlarına bağlanma. |
LLM bağlantısı | LLM bağlantısı. Daha fazla bilgi için bk. LLM bağlantılarına bağlanma. Databricks'i bir LLM bağlantısı olarak kullanmak istediğinizde, bilgi birikimi ambarı oluştururken Ekleme modeli hizmet uç noktası'nı ve Tamamlama modeli hizmet uç noktası'nı yapılandırın. Daha fazla bilgi için Databricks belgelerine bakın. |
Ayarlar | Açıklama |
Veri görevi şeması | Veri görevi şemasının adı. |
Dahili şema | Dahili şemanın adı. |
Tüm tablo ve görünümler için ön ek | Birden çok veri görevi arasındaki çakışmaları çözümlemek ön ek. |
Ayarlar | Açıklama |
Dizin şeması Bu ayar, Vektörleri şurada sakla: için Harici vektör veritabanı seçildiğinde kullanılamaz. | Dizin şemasının adı. |
Dizin adı | Dizinin adı. |
Dizin zaten mevcutsa | Aynı dizine birden fazla görev yazıldığında, dizinin silinmesi gerekip gerekmediğini seçin:
|
Ayarlar | Açıklama |
Paralel yürütme | Maksimum veritabanı bağlantısı sayısı. 1 ile 50 arasında bir değer girin. |
Toplu boyut | Bilgi birikimi ambarı için yığın boyutu, her bir yığın talebinde yüklenen belge sayısıdır. Dosya tabanlı bilgi birikimi ambarları için yığın boyutu, her bir yığın talebinde yüklenen dosya sayısıdır. Snowflake'te, her şey tek bir sorguda yüklendiğinden yığın boyutu gerekli değildir. |
Yüklenecek maksimum kayıt sayısı | 0, tüm kayıtların yüklendiği anlamına gelir. |
Ayarlar | Açıklama |
Standart görünümler | Bir sorgunun sonuçlarını bir tabloymuş gibi görüntülemek için standart görünümleri kullanın. |
Snowflake güvenli görünümleri | Temel tabloların tüm kullanıcılarına açık olmaması gereken hassas verilere erişimi sınırlamak üzere oluşturulan görünümler gibi veri gizliliği veya hassas bilgi koruması için belirlenmiş görünümler için Snowflake güvenli görünümlerini kullanın. Snowflake güvenli görünümleri Standart görünümlere göre daha yavaş çalışabilir. |
Ayarlar | Açıklama |
Bağlamdaki belge sayısı | Bağlam olarak modele aktarılacak alakalı belgelerin sayısı. |
Komut istemi şablonu | Yapay zekanın dahil edilecek belgeleri filtrelemek için izlemesi gereken şablonu girin. |
Filtre | Dahil edilecek belgeleri filtrelemek için ifadeyi girin. Filtre, meta verilere dayandığından ve dosya tabanlı bilgi birikimi ambarlarında meta veri olmadığından, yapılandırdığınız filtreyi dikkatlice düşünün. Verileri dahil etmek yerine hariç tutmak daha uygun olabilir. Daha fazla bilgi için bk. Test asistanını kullanma. |
Belge alma | Açılan listeden seçeneği seçin:
|
Yanıt oluşturma | Açılan listeden seçeneği seçin:
|