Tworzenie hurtowni wiedzy
Hurtownie wiedzy umożliwiają osadzanie i przechowywanie ustrukturyzowanych oraz nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).
Dane wyjściowe są w formacie JSON.
Instalowanie aplikacji Qlik Data Gateway - Data Movement
Przed utworzeniem hurtowni wiedzy należy zainstalować określoną bramę Qlik Data Gateway - Data Movement. Więcej informacji zawiera temat Konfigurowanie Qlik Data Gateway - Data Movement na potrzeby hurtowni wiedzy.
Obsługiwane połączenia
Aby uzyskać informacje na temat obsługiwanych:
- Wektorowych baz danych, zobacz Łączenie się z wektorowymi bazami danych.
- Połączeń z LLM, zobacz Łączenie się z połączeniami z LLM.
- Pamięci masowych plików, zobacz Łączenie z pamięcią masową plików.
Tworzenie danych
- Kliknij pozycję Projekty w lewym menu i otwórz projekt.
- Na stronie Projekt można wygenerować i opublikować dokumenty w wektorowej bazie danych. Wykonaj jedną z tych czynności:
- Kliknij Utwórz nową > Hurtownia wiedzy.
- Kliknij
zadania danych > Hurtownia wiedzy.
Zostanie otwarte okno potwierdzenia.
- Wprowadź nazwę.
- Wprowadź opis. Jest to opcjonalne.
- Wybierz miejsce przechowywania dokumentów z listy rozwijanej Przechowuj wektory w. Aby przechowywać dokumenty wraz z projektem, wybierz Platformę projektu danych.
- W przypadku wybrania opcji Zewnętrzna wektorowa baza danych utwórz lub wybierz połączenie z wektorową bazą danych. Dokumenty i wektory będą przechowywane w tej wektorowej bazie danych.
- Utwórz lub wybierz połączenie z LLM. To połączenie jest wymagane do korzystania z wyszukiwania semantycznego.
- Kliknij polecenie Utwórz.
- Po utworzeniu danych dodaj dokumenty.
Dodawanie dokumentów
- Na karcie Zestawy danych na stronie Zadanie danych kliknij przycisk Dodaj w lewym panelu.
- Wybierz bazowy zestaw danych, na podstawie którego zostanie wygenerowany dokument. Dla każdego rekordu zostanie utworzony dokument. Na przykład w przypadku listy pacjentów zostanie utworzony dokument dla każdego pacjenta.
- Pole Nazwa schematu dokumentu jest wstępnie wypełnione nazwą wybranego podstawowego zestawu danych. W razie potrzeby zmień jego nazwę.
- Wprowadź opis. Jest to opcjonalne.
- Wybierz dane, które chcesz dołączyć, aby wzbogacić dokument.
- Kliknij przycisk OK. Nastąpi powrót do karty Schematy dokumentów.
- Wybierz kartę Zestawy danych.
- W lewym panelu wybierz zestaw danych, który wcześniej wybrano jako podstawowy.
- Aby usunąć dane, których nie chcesz uwzględniać w dokumentach, zaznacz pole wyboru i kliknij przycisk Usuń.
- Aby usprawnić wyszukiwanie semantyczne wykonywane przez LLM, należy zmienić nazwy danych, których nazwy nie są wystarczająco jasne.
Przykład: Zmień nazwę dt na data.
- Po usunięciu i zmianie nazwy danych odpowiednio do potrzeb kliknij
po prawej stronie > Przygotuj. Dokumenty są generowane w formacie JSON. - Po wygenerowaniu dokumentów:
- Wybierz kartę Zestawy danych.
- Aby zweryfikować dokumenty przed uruchomieniem zadania, kliknij Wyświetl dane, aby wyświetlić próbkę danych.
- Kliknij Uruchom. Dokumenty są przesyłane do wektorowej bazy danych lub platformy danych w zależności od konfiguracji.
Transfer jest zakończony, gdy przycisk Uruchom jest aktywny.
Aby upewnić się, że wszystko zostało przeniesione, możesz zadać pytania dotyczące swoich danych. Więcej informacji zawiera temat Używanie asystenta testu.
Pełne ładowanie i przechwytywanie zmian danych (CDC)
Obsługiwane jest pełne ładowanie i CDC.
Pełne ładowanie: dokument jest generowany dla każdej instancji dokumentu i zostanie wysłany do celu.
CDC: dokument jest generowany ponownie po każdej zmianie w bazie lub powiązanym elemencie.
Nowy dokument jest tworzony po dodaniu wpisu do elementu bazowego. Jeśli żadnych wpisów w elementach powiązanych nie można połączyć z podmiotem bazowym, nie pojawią się one w dokumentach.
Aktualizacja danych wejściowych
Po zaktualizowaniu danych wejściowych należy uruchomić zadanie danych, aby przenieść zmiany do wektorowej bazy danych lub platformy danych.
Nazwa indeksu
Każda hurtownia wiedzy ma nazwę indeksu, która jest używana do wyszukiwania semantycznego.
Podczas konfigurowania zadań do zapisu w tym samym indeksie należy skonfigurować te same parametry LLM dla zadań.
Jeśli dokumenty mają znajdować się w tym samym indeksie, muszą mieć tę samą nazwę indeksu.
Aby edytować nazwę indeksu:
- Na stronie Zadanie danych kliknij przycisk Ustawienia.
- Wybierz kartę Ustawienia wektorowej bazy danych.
- Edytuj Nazwę indeksu.
- Kliknij przycisk OK.
Ustawienia
Ustawienia hurtowni wiedzy można wyświetlać i edytować.
Na stronie Zadanie danych kliknij
> Ustawienia.
| Ustawienia | Opis |
| Połączenie źródłowe | Połączenie źródłowe. |
| Przechowuj wektory w | Z listy rozwijanej wybierz:
|
| Połączenie z wektorową bazą danych To ustawienie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w. | Połączenie z wektorową bazą danych. Więcej informacji zawiera temat Łączenie się z wektorowymi bazami danych. |
| Połączenie z LLM | Połączenie z LLM Więcej informacji zawiera temat Łączenie się z połączeniami z LLM. Jeśli chcesz używać Databricks jako połączenia LLM, skonfiguruj Punkt końcowy obsługi modelu osadzania i Punkt końcowy obsługi modelu ukończenia podczas tworzenia hurtowni wiedzy. Więcej informacji zawiera dokumentacja Databricks. |
| Ustawienia | Opis |
| Schemat zadania dotyczącego danych | Nazwa schematu zadania danych. |
| Schemat wewnętrzny | Nazwa schematu wewnętrznego. |
| Sufiks dla wszystkich tabel i widoków | Prefiks do rozwiązywania konfliktów między kilkoma zadaniami dotyczącymi danych |
| Ustawienia | Opis |
| Schemat indeksu To ustawienie nie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w. | Nazwa schematu indeksu. |
| Nazwa indeksu | Nazwa indeksu. |
| Jeżeli indeks już istnieje | Gdy wiele zadań zapisuje dane do tego samego indeksu, wybierz, czy indeks ma zostać usunięty, czy nie:
|
| Ustawienia | Opis |
| Wykonanie równoległe | Maksymalna liczba połączeń z bazą danych. Wprowadź wartość od 1 do 50. |
| Rozmiar zbiorczy | W przypadku hurtowni wiedzy rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W przypadku hurtowni wiedzy opartych na plikach rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W Snowflake rozmiar zbiorczy nie jest wymagany, ponieważ wszystko jest ładowane w jednym zapytaniu. |
| Maksymalna liczba rekordów do załadowania | 0 oznacza, że załadowane zostały wszystkie rekordy. |
| Ustawienia | Opis |
| Widoki standardowe | Użyj standardowych widoków, aby wyświetlić wyniki zapytania tak, jakby była to tabela. |
| Bezpieczne widoki Snowflake | Używaj funkcji bezpiecznych widoków Snowflake w przypadku widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być dostępne dla wszystkich użytkowników tabel bazowych. Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe. |
| Ustawienia | Opis |
| Liczba dokumentów w kontekście | Liczba pasujących dokumentów, które zostaną przekazane do modelu jako kontekst. |
| Szablon promptu | Wprowadź szablon, który AI musi stosować, aby filtrować dokumenty do uwzględnienia. |
| Filter | Wprowadź wyrażenie, aby filtrować dokumenty do uwzględnienia. Ponieważ filtr jest oparty na metadanych, a hurtownie wiedzy oparte na plikach nie mają metadanych, należy dokładnie przemyśleć konfigurowany filtr. Bardziej odpowiednie może być wykluczanie danych zamiast ich uwzględniania. Więcej informacji zawiera temat Używanie asystenta testu. |
| Pobieranie dokumentu | Wybierz opcję z listy rozwijanej:
|
| Generowanie odpowiedzi | Wybierz opcję z listy rozwijanej:
|