Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Tworzenie hurtowni wiedzy opartej na plikach

Hurtownie wiedzy oparte na plikach umożliwiają osadzanie i przechowywanie nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).

Obsługiwane formaty wejściowe to: PDF, TXT oraz Word DOCX.

InformacjaJest potrzebna subskrypcja Qlik Talend Cloud Enterprise.
InformacjaTa cecha jest obsługiwana tylko na platformach Snowflake i w przypadku bramy danych zarządzanej przez klienta.

Instalowanie aplikacji Qlik Data Gateway - Data Movement

Przed utworzeniem hurtowni wiedzy opartej na plikach należy zainstalować określoną bramę Qlik Data Gateway - Data Movement. Więcej informacji zawiera temat Konfigurowanie Qlik Data Gateway - Data Movement na potrzeby hurtowni wiedzy.

Obsługiwane połączenia

Aby uzyskać informacje na temat obsługiwanych:

Tworzenie plików

  1. Kliknij pozycję Projekty w lewym menu i otwórz projekt.
  2. Na stronie Projekt można utworzyć hurtownię wiedzy opartą na plikach. Wykonaj jedną z tych czynności:
    • Kliknij Utwórz nowąHurtownia wiedzy oparta na plikach.
    • Kliknij Ikona Działania zadania danych > Hurtownia wiedzy oparta na plikach.

    Zostanie otwarte okno potwierdzenia.

  3. Wprowadź nazwę.
  4. Wprowadź opis. Jest to opcjonalne.
  5. Utwórz lub wybierz Połączenie źródłowe.
  6. Wybierz miejsce przechowywania dokumentów z listy rozwijanej Przechowuj wektory w. Aby przechowywać dokumenty wraz z projektem, wybierz Platformę projektu danych.

  7. W przypadku wybrania opcji Zewnętrzna wektorowa baza danych utwórz lub wybierz połączenie z wektorową bazą danych. Dokumenty i wektory będą przechowywane w tej wektorowej bazie danych.
  8. Utwórz lub wybierz połączenie z LLM. To połączenie jest wymagane do korzystania z wyszukiwania semantycznego.
  9. Kliknij polecenie Utwórz.
  10. Po utworzeniu hurtowni wiedzy dodaj dokumenty.

Dodawanie plików

InformacjaW dokumentach jest zapisywany tylko tekst. Nie można wyodrębnić tekstu z diagramów lub grafik.
  1. Na karcie Foldery na stronie Zadanie danych wybierz folder lub kliknij opcję Wybierz foldery, aby wybrać nowy folder.
  2. Przejdź do folderu i zaznacz pole wyboru folderu.

    Wszystkie pliki w folderach zostaną odczytane, jeśli są w jednym z obsługiwanych formatów, niezależnie od tego, kiedy zostały dodane do folderu.

    Po usunięciu pliku, który już istnieje w indeksie z folderu, dane nadal znajdują się w indeksie. Aby usunąć dane z indeksu, należy użyć tego samego pliku, ale pustego.

    Aby wyświetlić listę plików w folderze, kliknij go prawym przyciskiem myszy.

  3. Kliknij przycisk Zapisz, aby zamknąć okno Wybierz foldery.
  4. Aby edytować rozmiar fragmentu i nakładanie się fragmentów, kliknij Ustawienia > Środowisko uruchomienia.
  5. Aby edytować nazwę indeksu, kliknij Ustawienia > Ustawienia wektorowej bazy danych.

    Więcej informacji zawiera temat Nazwa indeksu.

  6. Kliknij Ikona Działania po prawej stronie > Przygotuj.
  7. Po zakończeniu przygotowania kliknij przycisk Uruchom. Dokumenty są osadzane i przesyłane.

    Transfer jest zakończony, gdy przycisk Uruchom jest aktywny.

  8. Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:
    1. Wybierz opcję Monitorowanie w menu.
    2. Wybierz opcję Stan pełnego ładowania na dole strony.

      Stan pełnego ładowania w sekcji Monitorowanie

    3. Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.
    InformacjaPrzeładowanie wszystkich plików może się wiązać z dodatkowymi kosztami.

Gdy pliki będą poprawne, można zadać pytania dotyczące danych. Więcej informacji zawiera temat Używanie asystenta testu.

Pełne ładowanie i przechwytywanie zmian danych (CDC)

Obsługiwane jest pełne ładowanie i CDC.

Pełne ładowanie: dokument jest generowany dla każdej instancji dokumentu i zostanie wysłany do celu.

CDC: dokument jest generowany ponownie po każdej zmianie.

Gdy plik zostanie zmieniony lub dodany, dokumenty są odczytywane z tego pliku. Plik zostanie podzielony na dokumenty fragmentów zgodnie z ustawieniami rozmiaru i nakładania się fragmentów.

Przy pierwszym pełnym ładowaniu sprawdź status każdego pliku:

  1. Wybierz opcję Monitorowanie w menu.
  2. Wybierz opcję Stan pełnego ładowania na dole strony.

    Stan pełnego ładowania w sekcji Monitorowanie

  3. Jeśli ładowanie niektórych plików się nie powiodło, napraw błędy lub usuń pliki przed ponownym uruchomieniem wszystkiego. Jeśli pliki pozostaną błędne, kolejne uruchomienia zakończą się niepowodzeniem.
InformacjaPrzeładowanie wszystkich plików może się wiązać z dodatkowymi kosztami.

Aktualizacja danych wejściowych

Po zaktualizowaniu danych wejściowych należy uruchomić zadanie danych, aby przenieść zmiany do wektorowej bazy danych lub platformy danych.

Ponieważ stare fragmenty są usuwane, a nowe wstawiane, pole hdr__operation odpowiada operacji wstawiania, a nie operacji aktualizacji. Więcej informacji zawiera temat Architektura zestawów danych w hurtowni danych w chmurze.

Nazwa indeksu

Każda hurtownia wiedzy ma nazwę indeksu, która jest używana do wyszukiwania semantycznego.

Podczas konfigurowania zadań do zapisu w tym samym indeksie należy skonfigurować te same parametry LLM dla zadań.

Jeśli dokumenty mają znajdować się w tym samym indeksie, muszą mieć tę samą nazwę indeksu.

Aby edytować nazwę indeksu:

  1. Na stronie Zadanie danych kliknij przycisk Ustawienia.
  2. Wybierz kartę Ustawienia wektorowej bazy danych.
  3. Edytuj Nazwę indeksu.
  4. Kliknij przycisk OK.

Po edycji nazwy indeksu należy przygotować zadanie. W przeciwnym razie zmiany nie zostaną zastosowane w następnych uruchomieniach.

Ustawienia

Ustawienia hurtowni wiedzy można wyświetlać i edytować.

Na stronie Zadanie danych kliknij > Ustawienia.

InformacjaPonieważ ustawienia zależą od pamięci masowej (Databricks, Snowflake itp.), w poniższych tabelach opisano ustawienia, które są zawsze dostępne. Dostępnych może być więcej ustawień.
W tej tabeli opisano ustawienia karty Połączenia.
UstawieniaOpis
Połączenie źródłowe

Połączenie źródłowe.

Przechowuj wektory w

Z listy rozwijanej wybierz:

  • Zewnętrzna wektorowa baza danych
  • Platforma projektu danych
Połączenie z wektorową bazą danych

To ustawienie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.

Połączenie z wektorową bazą danych.

Więcej informacji zawiera temat Łączenie się z wektorowymi bazami danych.

Połączenie z LLMPołączenie z LLM

Więcej informacji zawiera temat Łączenie się z połączeniami z LLM.

Jeśli chcesz używać Databricks jako połączenia LLM, skonfiguruj Punkt końcowy obsługi modelu osadzania i Punkt końcowy obsługi modelu ukończenia podczas tworzenia hurtowni wiedzy. Więcej informacji zawiera dokumentacja Databricks.

W tej tabeli opisano ustawienia karty Ustawienia platformy.
UstawieniaOpis
Schemat zadania dotyczącego danychNazwa schematu zadania danych.
Schemat wewnętrznyNazwa schematu wewnętrznego.
Sufiks dla wszystkich tabel i widokówPrefiks do rozwiązywania konfliktów między kilkoma zadaniami dotyczącymi danych
W tej tabeli opisano ustawienia karty Ustawienia wektorowej bazy danych.
UstawieniaOpis
Schemat indeksu

To ustawienie nie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.

Nazwa schematu indeksu.
Nazwa indeksuNazwa indeksu.
Jeżeli indeks już istniejeGdy wiele zadań zapisuje dane do tego samego indeksu, wybierz, czy indeks ma zostać usunięty, czy nie:
  • Użyj istniejącego indeksu: indeks nie jest usuwany.
  • Usuń i utwórz indeks: indeks zostanie usunięty.
W tej tabeli opisano ustawienia karty Środowisko uruchomienia.
UstawieniaOpis
Wykonanie równoległe

Maksymalna liczba połączeń z bazą danych. 

Wprowadź wartość od 1 do 50.

Rozmiar zbiorczyW przypadku hurtowni wiedzy rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym.

W przypadku hurtowni wiedzy opartych na plikach rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym.

W Snowflake rozmiar zbiorczy nie jest wymagany, ponieważ wszystko jest ładowane w jednym zapytaniu.

Maksymalna liczba rekordów do załadowania0 oznacza, że załadowane zostały wszystkie rekordy.
W tej tabeli opisano ustawienia karty Widoki.
Ustawienia Opis
Widoki standardowe Użyj standardowych widoków, aby wyświetlić wyniki zapytania tak, jakby była to tabela.
Bezpieczne widoki Snowflake Używaj funkcji bezpiecznych widoków Snowflake w przypadku widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być dostępne dla wszystkich użytkowników tabel bazowych.

Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe.

W tej tabeli opisano ustawienia karty Asystent testu.
UstawieniaOpis
Liczba dokumentów w kontekścieLiczba pasujących dokumentów, które zostaną przekazane do modelu jako kontekst.
Szablon promptuWprowadź szablon, który AI musi stosować, aby filtrować dokumenty do uwzględnienia.
FilterWprowadź wyrażenie, aby filtrować dokumenty do uwzględnienia.

Ponieważ filtr jest oparty na metadanych, a hurtownie wiedzy oparte na plikach nie mają metadanych, należy dokładnie przemyśleć konfigurowany filtr. Bardziej odpowiednie może być wykluczanie danych zamiast ich uwzględniania.

Więcej informacji zawiera temat Używanie asystenta testu.

Pobieranie dokumentuWybierz opcję z listy rozwijanej:
  • Pokaż pobrany kontekst: asystent testu udostępnia dokumenty, na podstawie których generuje odpowiedź.
  • Nie pokazuj pobranego kontekstu: asystent testu generuje odpowiedź, ale nie wskazuje dokumentów.
Generowanie odpowiedziWybierz opcję z listy rozwijanej:
  • Generuj odpowiedzi: asystent testu generuje odpowiedź na podstawie dokumentów.
  • Nie generuj odpowiedzi: asystent testu udziela odpowiedzi wyłącznie za pomocą dokumentów.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!