Tworzenie hurtowni wiedzy opartej na plikach
Hurtownie wiedzy oparte na plikach umożliwiają osadzanie i przechowywanie nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).
Obsługiwane formaty wejściowe to: PDF
, TXT
oraz Word DOCX
.
Instalowanie aplikacji Qlik Data Gateway - Data Movement
Przed utworzeniem hurtowni wiedzy opartej na plikach należy zainstalować określoną bramę Qlik Data Gateway - Data Movement. Więcej informacji zawiera temat Konfigurowanie Qlik Data Gateway - Data Movement na potrzeby hurtowni wiedzy.
Obsługiwane połączenia
Aby uzyskać informacje na temat obsługiwanych:
- Wektorowych baz danych, zobacz Łączenie się z wektorowymi bazami danych.
- Połączeń z LLM, zobacz Łączenie się z połączeniami z LLM.
- Pamięci masowych plików, zobacz Łączenie z pamięcią masową plików.
Tworzenie plików
- Kliknij pozycję Projekty w lewym menu i otwórz projekt.
- Na stronie Projekt można utworzyć hurtownię wiedzy opartą na plikach. Wykonaj jedną z tych czynności:
- Kliknij Utwórz nową > Hurtownia wiedzy oparta na plikach.
- Kliknij
zadania danych > Hurtownia wiedzy oparta na plikach.
Zostanie otwarte okno potwierdzenia.
- Wprowadź nazwę.
- Wprowadź opis. Jest to opcjonalne.
- Utwórz lub wybierz Połączenie źródłowe.
-
Wybierz miejsce przechowywania dokumentów z listy rozwijanej Przechowuj wektory w. Aby przechowywać dokumenty wraz z projektem, wybierz Platformę projektu danych.
- W przypadku wybrania opcji Zewnętrzna wektorowa baza danych utwórz lub wybierz połączenie z wektorową bazą danych. Dokumenty i wektory będą przechowywane w tej wektorowej bazie danych.
- Utwórz lub wybierz połączenie z LLM. To połączenie jest wymagane do korzystania z wyszukiwania semantycznego.
- Kliknij polecenie Utwórz.
- Po utworzeniu hurtowni wiedzy dodaj dokumenty.
Dodawanie plików
- Na karcie Foldery na stronie Zadanie danych wybierz folder lub kliknij opcję Wybierz foldery, aby wybrać nowy folder.
- Przejdź do folderu i zaznacz pole wyboru folderu.
Wszystkie pliki w folderach zostaną odczytane, jeśli są w jednym z obsługiwanych formatów, niezależnie od tego, kiedy zostały dodane do folderu.
Po usunięciu pliku, który już istnieje w indeksie z folderu, dane nadal znajdują się w indeksie. Aby usunąć dane z indeksu, należy użyć tego samego pliku, ale pustego.
Aby wyświetlić listę plików w folderze, kliknij go prawym przyciskiem myszy.
- Kliknij przycisk Zapisz, aby zamknąć okno Wybierz foldery.
- Aby edytować rozmiar fragmentu i nakładanie się fragmentów, kliknij Ustawienia > Środowisko uruchomienia.
- Aby edytować nazwę indeksu, kliknij Ustawienia > Ustawienia wektorowej bazy danych.
Więcej informacji zawiera temat Nazwa indeksu.
- Kliknij
po prawej stronie > Przygotuj.
- Po zakończeniu przygotowania kliknij przycisk Uruchom. Dokumenty są osadzane i przesyłane.
Transfer jest zakończony, gdy przycisk Uruchom jest aktywny.
- Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:
- Wybierz opcję Monitorowanie w menu.
- Wybierz opcję Stan pełnego ładowania na dole strony.
- Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.
InformacjaPrzeładowanie wszystkich plików może się wiązać z dodatkowymi kosztami.
Gdy pliki będą poprawne, można zadać pytania dotyczące danych. Więcej informacji zawiera temat Używanie asystenta testu.
Pełne ładowanie i przechwytywanie zmian danych (CDC)
Obsługiwane jest pełne ładowanie i CDC.
Pełne ładowanie: dokument jest generowany dla każdej instancji dokumentu i zostanie wysłany do celu.
CDC: dokument jest generowany ponownie po każdej zmianie.
Gdy plik zostanie zmieniony lub dodany, dokumenty są odczytywane z tego pliku. Plik zostanie podzielony na dokumenty fragmentów zgodnie z ustawieniami rozmiaru i nakładania się fragmentów.
Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:
- Wybierz opcję Monitorowanie w menu.
- Wybierz opcję Stan pełnego ładowania na dole strony.
- Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.
Aktualizacja danych wejściowych
Po zaktualizowaniu danych wejściowych należy uruchomić zadanie danych, aby przenieść zmiany do wektorowej bazy danych lub platformy danych.
Ponieważ stare fragmenty są usuwane, a nowe wstawiane, pole hdr__operation
odpowiada operacji wstawiania, a nie operacji aktualizacji. Więcej informacji zawiera temat Architektura zestawów danych w hurtowni danych w chmurze.
Nazwa indeksu
Każda hurtownia wiedzy ma nazwę indeksu, która jest używana do wyszukiwania semantycznego.
Podczas konfigurowania zadań do zapisu w tym samym indeksie należy skonfigurować te same parametry LLM dla zadań.
Jeśli dokumenty mają znajdować się w tym samym indeksie, muszą mieć tę samą nazwę indeksu.
Aby edytować nazwę indeksu:
- Na stronie Zadanie danych kliknij przycisk Ustawienia.
- Wybierz kartę Ustawienia wektorowej bazy danych.
- Edytuj Nazwę indeksu.
- Kliknij przycisk OK.
Po edycji nazwy indeksu należy przygotować zadanie. W przeciwnym razie zmiany nie zostaną zastosowane w następnych uruchomieniach.
Ustawienia
Ustawienia hurtowni wiedzy można wyświetlać i edytować.
Na stronie Zadanie danych kliknij > Ustawienia.
Ustawienia | Opis |
Połączenie źródłowe | Połączenie źródłowe. |
Przechowuj wektory w | Z listy rozwijanej wybierz:
|
Połączenie z wektorową bazą danych To ustawienie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w. | Połączenie z wektorową bazą danych. Więcej informacji zawiera temat Łączenie się z wektorowymi bazami danych. |
Połączenie z LLM | Połączenie z LLM Więcej informacji zawiera temat Łączenie się z połączeniami z LLM. Jeśli chcesz używać Databricks jako połączenia LLM, skonfiguruj Punkt końcowy obsługi modelu osadzania i Punkt końcowy obsługi modelu ukończenia podczas tworzenia hurtowni wiedzy. Więcej informacji zawiera dokumentacja Databricks. |
Ustawienia | Opis |
Schemat zadania dotyczącego danych | Nazwa schematu zadania danych. |
Schemat wewnętrzny | Nazwa schematu wewnętrznego. |
Sufiks dla wszystkich tabel i widoków | Prefiks do rozwiązywania konfliktów między kilkoma zadaniami dotyczącymi danych |
Ustawienia | Opis |
Schemat indeksu To ustawienie nie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w. | Nazwa schematu indeksu. |
Nazwa indeksu | Nazwa indeksu. |
Jeżeli indeks już istnieje | Gdy wiele zadań zapisuje dane do tego samego indeksu, wybierz, czy indeks ma zostać usunięty, czy nie:
|
Ustawienia | Opis |
Wykonanie równoległe | Maksymalna liczba połączeń z bazą danych. Wprowadź wartość od 1 do 50. |
Rozmiar zbiorczy | W przypadku hurtowni wiedzy rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W przypadku hurtowni wiedzy opartych na plikach rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W Snowflake rozmiar zbiorczy nie jest wymagany, ponieważ wszystko jest ładowane w jednym zapytaniu. |
Maksymalna liczba rekordów do załadowania | 0 oznacza, że załadowane zostały wszystkie rekordy. |
Ustawienia | Opis |
Widoki standardowe | Użyj standardowych widoków, aby wyświetlić wyniki zapytania tak, jakby była to tabela. |
Bezpieczne widoki Snowflake | Używaj funkcji bezpiecznych widoków Snowflake w przypadku widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być dostępne dla wszystkich użytkowników tabel bazowych. Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe. |
Ustawienia | Opis |
Liczba dokumentów w kontekście | Liczba pasujących dokumentów, które zostaną przekazane do modelu jako kontekst. |
Szablon promptu | Wprowadź szablon, który AI musi stosować, aby filtrować dokumenty do uwzględnienia. |
Filter | Wprowadź wyrażenie, aby filtrować dokumenty do uwzględnienia. Ponieważ filtr jest oparty na metadanych, a hurtownie wiedzy oparte na plikach nie mają metadanych, należy dokładnie przemyśleć konfigurowany filtr. Bardziej odpowiednie może być wykluczanie danych zamiast ich uwzględniania. Więcej informacji zawiera temat Używanie asystenta testu. |
Pobieranie dokumentu | Wybierz opcję z listy rozwijanej:
|
Generowanie odpowiedzi | Wybierz opcję z listy rozwijanej:
|