Tworzenie hurtowni wiedzy
Utworzenie hurtowni wiedzy umożliwia osadzanie i przechowywanie ustrukturyzowanych oraz nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).
RAG optymalizuje dane wyjściowe LLM poprzez dostarczanie dodatkowego kontekstu do LLM wraz z zapytaniem.
Wymagania
-
Jest potrzebna subskrypcja Qlik Talend Cloud Enterprise.
-
Obsługiwane na platformach Snowflake i Databricks. Snowflake Iceberg nie jest obsługiwany.
-
Wymagana jest brama danych zarządzana przez klienta.
Databricks wymaga Brama danych Qlik — ruch danych w wersji 2024.11.95 lub nowszej.
Instalowanie aplikacji Brama danych Qlik — ruch danych
Aby korzystać z hurtowni wiedzy, należy połączyć się z wektorowymi bazami danych i połączeniami LLM, co wymaga zainstalowania określonej bramy Brama danych Qlik — ruch danych. Więcej informacji zawiera temat Konfigurowanie Brama danych Qlik — ruch danych na potrzeby hurtowni wiedzy.
Przeglądanie i pobieranie dzienników
Można przeglądać i pobierać dzienniki hurtowni danych. Więcej informacji zawiera temat Rozwiązywanie problemów Brama danych ruchu danych.
Wymagania wstępne
Jako źródła dla knowledge martu można użyć zadań danych następujących typów:
-
Pamięć masowa
-
Transformacja
Przed utworzeniem knowledge martu należy wykonać następujące czynności w zadaniach danych źródłowych:
- Wypełnienie zestawów danych danymi, których chcesz użyć w swoim knowledge marcie. Więcej informacji zawiera temat Dołączanie danych do hurtowni danych.
-
Utworzenie relacyjnego modelu zestawu danych w celu zdefiniowania relacji między źródłowymi zestawami danych. Więcej informacji zawiera temat Tworzenie modelu danych.
OstrzeżenieWszystkie źródłowe zestawy danych muszą mieć klucze.
Konfigurowanie Databricks dla hurtowni wiedzy
Jeśli używasz Databricks jako platformy danych, musisz wykonać pewne działania konfiguracyjne w Databricks, aby móc tworzyć hurtownie wiedzy.
-
Utwórz hurtownię SQL w Databricks. Zaleca się używanie opcji Serverless Compute (Obliczeń bezserwerowych).
Należy również skonfigurować Data Security (Bezpieczeństwo danych) dla SQL Warehouses (Hurtowni SQL) i Serverless Compute (Obliczeń bezserwerowych), aby umożliwić integrację pamięci masowej.
-
Utwórz punkt końcowy w Vector Search (Wyszukiwaniu wektorowym). Do nazwy tego punktu końcowego należy się odwołać Ustawieniach wektorowej bazy danych w zadaniu hurtowni wiedzy.
Wybierz Type (Typ) na podstawie wymagań dotyczących wydajności — Standard jest odpowiedni do większości zastosowań.
W razie potrzeby zdefiniuj Serverless Usage Policy (Zasady użytkowania bezserwerowego), aby powiązać znaczniki na potrzeby przypisywania kosztów.
-
Skonfiguruj modele Databricks w Serving (Dostarczanie).
W sekcji Serving Endpoints (Punkty końcowe dostarczania) można użyć opcji LLM Embeddings (Osadzenia LLM) i Chat Models (Modele czatów) dostępnych w Databricks. Pamiętaj o zweryfikowaniu modeli, których planujesz użyć w swoim potoku danych.
Możesz również utworzyć Serving Endpoint (Punkt końcowy dostarczania) dla niestandardowego modelu lub użyć Foundation Model (Modelu zasadniczego), na przykład OpenAI lub Azure OpenAI.
Przykłady:
Model osadzania: databricks-gte-large-en
Model czatu/uzupełniania: databricks-meta-llama-3-1-405b-instruct
Ograniczenia
Istnieją ograniczenia w przypadku korzystania ze źródłowych zestawów danych spełniających wszystkie te warunki:
-
Utworzone przez transformację SQL lub przepływ transformacji
-
Niezmaterializowane
-
Magazyn danych historycznych (typ 2) wyłączony
Te zestawy danych są aktualizowane przy każdym uruchomieniu, co może wpływać na wydajność i koszty. Można to złagodzić:
-
Zmieniając źródłowe zestawy danych, które mają zostać zmaterializowane.
-
Korzystając z jawnych przekształceń zestawu danych.
-
Tworząc globalne reguły przekształcania wielu zestawów danych.
Obsługiwany format kodowania
Pliki muszą być poprawnie zakodowane w UTF-8. Inne formaty mogą być błędnie interpretowane.
Obsługiwane znaki
Nazwy plików i folderów mogą zawierać następujące znaki:
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
Inne znaki specjalne mogą być obsługiwane, ale ze względu na pracochłonną obsługę znaków specjalnych zaleca się używanie tylko znaków z powyższej listy.
Relacje
-
Nie jest możliwe powiązanie danych z dwóch zestawów danych. Utwórz zadanie transformacji, w którym zdefiniujesz relację w modelu danych i użyj zadania transformacji jako źródła dla zadania.
-
Gdy dwa zestawy danych są powiązane w modelu danych, oba zestawy danych będą dostępne w zadaniu, nawet jeśli wybrano tylko jeden z nich.
Zmiana połączeń lub bramy danych
Jeśli zmienisz połączenie wektorowe lub bramę danych wektorowych, musisz ponownie przygotować zadanie.
Rozwiązywanie problemów
Pliki przeniesione do usługi OneDrive nie są rozpoznawane przez File knowledge mart
Możliwa przyczyna
Jeśli pliki są przenoszone lub synchronizowane z usługą OneDrive przy użyciu opcji zachowujących starą datę utworzenia i modyfikacji pliku, plik nie jest rozpoznawany jako nowy plik.
Proponowane działanie
Zmień datę modyfikacji pliku na bieżącą datę.
Błąd wykonania podczas używania Pinecone
Możliwa przyczyna
Wartości NULL w kolumnach metadanych nie są obsługiwane przez Pinecone. Rezultatem byłby błąd wykonania.
Proponowane działanie
-
Przekształć wartości NULL na inne wartości, na przykład pusty ciąg znaków lub słowo NULL, w transformacji przed hurtownią wiedzy.
-
Użyj innej bazy danych wektorowych.
-
Nie używaj kolumny jako metadanych.