Tworzenie hurtowni wiedzy opartej na plikach

Hurtownie wiedzy oparte na plikach umożliwiają osadzanie i przechowywanie nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).

Obsługiwane formaty wejściowe to: PDF, TXT oraz Word DOCX.

Wymagania

Jest potrzebna subskrypcja Qlik Talend Cloud Enterprise.
Obsługiwane na platformach Snowflake i Databricks. Snowflake Iceberg nie jest obsługiwany.
Wymagana jest brama danych zarządzana przez klienta.

Databricks wymaga Brama danych Qlik — ruch danych w wersji 2024.11.95 lub nowszej.

Instalowanie aplikacji Brama danych Qlik — ruch danych

Przed utworzeniem hurtowni wiedzy opartej na plikach należy zainstalować określoną bramę Brama danych Qlik — ruch danych. Więcej informacji zawiera temat Konfigurowanie Brama danych Qlik — ruch danych na potrzeby hurtowni wiedzy.

Obsługiwane połączenia

Aby uzyskać informacje na temat obsługiwanych:

Wektorowych baz danych, zobacz Łączenie się z wektorowymi bazami danych.
Połączeń z LLM, zobacz Łączenie się z połączeniami z LLM.
Pamięci masowych plików, zobacz Łączenie z pamięcią masową plików.
Pamięć masowa w chmurze (Amazon S3, Google Cloud Storage, Azure Data Lake Storage), zobacz Łączenie z pamięcią w chmurze.

Tworzenie plików

Kliknij pozycję Projekty potoków w lewym menu i otwórz projekt.
Na stronie Projekt potoku można utworzyć hurtownię wiedzy opartą na plikach. Wykonaj jedną z tych czynności:
- Kliknij Utwórz nową > Hurtownia wiedzy oparta na plikach.
- Kliknij zadania danych > Hurtownia wiedzy oparta na plikach.
Zostanie otwarte okno potwierdzenia.
Wprowadź nazwę.
Wprowadź opis. Jest to opcjonalne.
Utwórz lub wybierz Połączenie źródłowe.
Wybierz miejsce przechowywania dokumentów z listy rozwijanej Przechowuj wektory w. Aby przechowywać dokumenty wraz z projektem, wybierz Platformę projektu danych.
W przypadku wybrania opcji Zewnętrzna wektorowa baza danych utwórz lub wybierz połączenie z wektorową bazą danych. Dokumenty i wektory będą przechowywane w tej wektorowej bazie danych.
Utwórz lub wybierz połączenie z LLM. To połączenie jest wymagane do korzystania z wyszukiwania semantycznego.
Kliknij Utwórz.
Po utworzeniu hurtowni wiedzy dodaj dokumenty.

Dodawanie plików

W dokumentach jest zapisywany tylko tekst. Nie można wyodrębnić tekstu z diagramów lub grafik.

Na karcie Foldery na stronie Zadanie danych wybierz folder lub kliknij opcję Wybierz foldery, aby wybrać nowy folder.
Przejdź do folderu i zaznacz pole wyboru folderu.
Wszystkie pliki w folderach zostaną odczytane, jeśli są w jednym z obsługiwanych formatów, niezależnie od tego, kiedy zostały dodane do folderu.
Po usunięciu pliku, który już istnieje w indeksie z folderu, dane nadal znajdują się w indeksie. Aby usunąć dane z indeksu, należy użyć tego samego pliku, ale pustego.
Aby wyświetlić listę plików w folderze, kliknij go prawym przyciskiem myszy.
Kliknij przycisk Zapisz, aby zamknąć okno Wybierz foldery.
Aby edytować rozmiar fragmentu i nakładanie się fragmentów, kliknij Ustawienia > Środowisko uruchomienia.
Aby edytować nazwę indeksu, kliknij Ustawienia > Ustawienia wektorowej bazy danych.
Więcej informacji zawiera temat Nazwa indeksu.
Kliknij po prawej stronie > Przygotuj.
Po zakończeniu przygotowania kliknij przycisk Uruchom. Dokumenty są osadzane i przesyłane.
Transfer jest zakończony, gdy przycisk Uruchom jest aktywny.
Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:
1. Wybierz opcję Monitorowanie w menu.
2. Wybierz opcję Stan pełnego ładowania na dole strony.
3. Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.
InformacjaPrzeładowanie wszystkich plików może się wiązać z dodatkowymi kosztami.

Gdy pliki będą poprawne, można zadać pytania dotyczące danych. Więcej informacji zawiera temat Używanie asystenta testu.

Pełne ładowanie i przechwytywanie zmian danych (CDC)

Obsługiwane jest pełne ładowanie i CDC.

Pełne ładowanie: dokument jest generowany dla każdej instancji dokumentu i zostanie wysłany do celu.

CDC: dokument jest generowany ponownie po każdej zmianie.

Gdy plik zostanie zmieniony lub dodany, dokumenty są odczytywane z tego pliku. Plik zostanie podzielony na dokumenty fragmentów zgodnie z ustawieniami rozmiaru i nakładania się fragmentów.

Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:

Wybierz opcję Monitorowanie w menu.
Wybierz opcję Stan pełnego ładowania na dole strony.
Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.

Przeładowanie wszystkich plików może się wiązać z dodatkowymi kosztami.

Aktualizacja danych wejściowych

Po zaktualizowaniu danych wejściowych należy uruchomić zadanie danych, aby przenieść zmiany do wektorowej bazy danych lub platformy danych.

Ponieważ stare fragmenty są usuwane, a nowe wstawiane, pole hdr__operation odpowiada operacji wstawiania, a nie operacji aktualizacji. Więcej informacji zawiera temat Architektura zestawów danych w hurtowni danych w chmurze.

Nazwa indeksu

Każda hurtownia wiedzy ma nazwę indeksu, która jest używana do wyszukiwania semantycznego.

Podczas konfigurowania zadań do zapisu w tym samym indeksie należy skonfigurować te same parametry LLM dla zadań.

Jeśli dokumenty mają znajdować się w tym samym indeksie, muszą mieć tę samą nazwę indeksu.

Aby edytować nazwę indeksu:

Na stronie Zadanie danych kliknij przycisk Ustawienia.
Wybierz kartę Ustawienia wektorowej bazy danych.
Edytuj Nazwę indeksu.
Kliknij przycisk OK.

Po edycji nazwy indeksu należy przygotować zadanie. W przeciwnym razie zmiany nie zostaną zastosowane w następnych uruchomieniach.

Wyświetlanie informacji o zadaniu

Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:

Właściciel
Przestrzeń
Platforma danych
Identyfikator projektu
Identyfikator czasu wykonania zadania danych

Ustawienia

Ustawienia hurtowni wiedzy można wyświetlać i edytować.

Na stronie Zadanie danych kliknij > Ustawienia.

Ponieważ ustawienia zależą od pamięci masowej (Databricks, Snowflake itp.), w poniższych tabelach opisano ustawienia, które są zawsze dostępne. Dostępnych może być więcej ustawień.

W tej tabeli opisano ustawienia karty Połączenia.
Ustawienia	Opis
Połączenie źródłowe	Połączenie źródłowe.
Przechowuj wektory w	Z listy rozwijanej wybierz: Zewnętrzna wektorowa baza danych Platforma projektu danych
Połączenie z wektorową bazą danych To ustawienie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.	Połączenie z wektorową bazą danych. Więcej informacji zawiera temat Łączenie się z wektorowymi bazami danych.
Połączenie z LLM	Połączenie z LLM Więcej informacji zawiera temat Łączenie się z połączeniami z LLM. Jeśli chcesz używać Databricks jako połączenia LLM, skonfiguruj Punkt końcowy obsługi modelu osadzania i Punkt końcowy obsługi modelu ukończenia podczas tworzenia hurtowni wiedzy. Więcej informacji zawiera dokumentacja Databricks.

W tej tabeli opisano ustawienia karty Ustawienia platformy.
Ustawienia	Opis
Schemat zadania dotyczącego danych	Nazwa schematu zadania danych.
Schemat wewnętrzny	Nazwa schematu wewnętrznego.
Sufiks dla wszystkich tabel i widoków	Prefiks do rozwiązywania konfliktów między kilkoma zadaniami dotyczącymi danych

W tej tabeli opisano ustawienia karty Ustawienia wektorowej bazy danych.
Ustawienia	Opis
Schemat indeksu To ustawienie nie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.	Nazwa schematu indeksu.
Nazwa indeksu	Nazwa indeksu.
Jeżeli indeks już istnieje	Gdy wiele zadań zapisuje dane do tego samego indeksu, wybierz, czy indeks ma zostać usunięty, czy nie: Użyj istniejącego indeksu: indeks nie jest usuwany. Usuń i utwórz indeks: indeks zostanie usunięty.
Punkt końcowy wyszukiwania wektorowego Databricks	Nazwa punktu końcowego wyszukiwania wektorowego utworzonego w Databricks. Więcej informacji zawiera temat Konfigurowanie Databricks dla hurtowni wiedzy . InformacjaDotyczy tylko projektów używających Databricks jako platformy danych.

W tej tabeli opisano ustawienia karty Środowisko uruchomienia.
Ustawienia	Opis
Wykonanie równoległe	Maksymalna liczba połączeń z bazą danych. Wprowadź wartość od 1 do 50.
Rozmiar zbiorczy	W przypadku hurtowni wiedzy rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W przypadku hurtowni wiedzy opartych na plikach rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym. W Snowflake i Databricks rozmiar zbiorczy nie jest wymagany, ponieważ wszystko jest ładowane w jednym zapytaniu.
Maksymalna liczba rekordów do załadowania	0 oznacza, że załadowane zostały wszystkie rekordy.

W tej tabeli opisano ustawienia karty Widoki dla Snowflake.
Ustawienia	Opis
Widoki standardowe	Użyj standardowych widoków, aby wyświetlić wyniki zapytania tak, jakby była to tabela.
Bezpieczne widoki Snowflake	Używaj funkcji bezpiecznych widoków Snowflake w przypadku widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być dostępne dla wszystkich użytkowników tabel bazowych. Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe.

W tej tabeli opisano ustawienia karty Asystent testu.
Ustawienia	Opis
Liczba dokumentów w kontekście	Liczba pasujących dokumentów, które zostaną przekazane do modelu jako kontekst.
Szablon promptu	Wprowadź szablon, który AI musi stosować, aby filtrować dokumenty do uwzględnienia.
Filter	Wprowadź wyrażenie, aby filtrować dokumenty do uwzględnienia. Ponieważ filtr jest oparty na metadanych, a hurtownie wiedzy oparte na plikach nie mają metadanych, należy dokładnie przemyśleć konfigurowany filtr. Bardziej odpowiednie może być wykluczanie danych zamiast ich uwzględniania. Więcej informacji zawiera temat Używanie asystenta testu.
Pobieranie dokumentu	Wybierz opcję z listy rozwijanej: Pokaż pobrany kontekst: asystent testu udostępnia dokumenty, na podstawie których generuje odpowiedź. Nie pokazuj pobranego kontekstu: asystent testu generuje odpowiedź, ale nie wskazuje dokumentów.
Generowanie odpowiedzi	Wybierz opcję z listy rozwijanej: Generuj odpowiedzi: asystent testu generuje odpowiedź na podstawie dokumentów. Nie generuj odpowiedzi: asystent testu udziela odpowiedzi wyłącznie za pomocą dokumentów.

Zmiana połączeń lub bramy danych

W przypadku zmiany połączenia źródłowego, połączenia wektorowego lub bramy danych wektorowych należy ponownie przygotować zadanie.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię