Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Tworzenie hurtowni wiedzy

Hurtownie wiedzy umożliwiają osadzanie i przechowywanie ustrukturyzowanych oraz nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).

Dane wyjściowe są w formacie JSON.

InformacjaJest potrzebna subskrypcja Qlik Talend Cloud Enterprise.
InformacjaTa cecha jest obsługiwana tylko na platformach Snowflake i w przypadku bramy danych zarządzanej przez klienta. Snowflake Iceberg nie jest obsługiwany.

Instalowanie aplikacji Qlik Data Gateway - Data Movement

Przed utworzeniem hurtowni wiedzy należy zainstalować określoną bramę Qlik Data Gateway - Data Movement. Więcej informacji zawiera temat Konfigurowanie Qlik Data Gateway - Data Movement na potrzeby hurtowni wiedzy.

Obsługiwane połączenia

Aby uzyskać informacje na temat obsługiwanych:

Tworzenie danych

  1. Kliknij pozycję Projekty w lewym menu i otwórz projekt.
  2. Na stronie Projekt można wygenerować i opublikować dokumenty w wektorowej bazie danych. Wykonaj jedną z tych czynności:
    • Kliknij Utwórz nowąHurtownia wiedzy.
    • Kliknij Ikona Działania zadania danych > Hurtownia wiedzy.

    Zostanie otwarte okno potwierdzenia.

  3. Wprowadź nazwę.
  4. Wprowadź opis. Jest to opcjonalne.
  5. Wybierz miejsce przechowywania dokumentów z listy rozwijanej Przechowuj wektory w. Aby przechowywać dokumenty wraz z projektem, wybierz Platformę projektu danych.
  6. W przypadku wybrania opcji Zewnętrzna wektorowa baza danych utwórz lub wybierz połączenie z wektorową bazą danych. Dokumenty i wektory będą przechowywane w tej wektorowej bazie danych.
  7. Utwórz lub wybierz połączenie z LLM. To połączenie jest wymagane do korzystania z wyszukiwania semantycznego.
  8. Kliknij polecenie Utwórz.
  9. Po utworzeniu danych dodaj dokumenty.

Dodawanie dokumentów

InformacjaObsługiwany jest tylko format tekstowy. Na przykład nie można wyodrębnić tekstu z diagramów lub grafik.
  1. Na karcie Zestawy danych na stronie Zadanie danych kliknij przycisk Dodaj w lewym panelu.
  2. Wybierz bazowy zestaw danych, na podstawie którego zostanie wygenerowany dokument. Dla każdego rekordu zostanie utworzony dokument. Na przykład w przypadku listy pacjentów zostanie utworzony dokument dla każdego pacjenta.
  3. Pole Nazwa schematu dokumentu jest wstępnie wypełnione nazwą wybranego podstawowego zestawu danych. W razie potrzeby zmień jego nazwę.
  4. Wprowadź opis. Jest to opcjonalne.
  5. Wybierz dane, które chcesz dołączyć, aby wzbogacić dokument.
  6. Kliknij przycisk OK. Nastąpi powrót do karty Schematy dokumentów.
  7. Wybierz kartę Zestawy danych.
  8. W lewym panelu wybierz zestaw danych, który wcześniej wybrano jako podstawowy.
  9. Aby usunąć dane, których nie chcesz uwzględniać w dokumentach, zaznacz pole wyboru i kliknij przycisk Usuń.
  10. Aby usprawnić wyszukiwanie semantyczne wykonywane przez LLM, należy zmienić nazwy danych, których nazwy nie są wystarczająco jasne.

    Przykład: Zmień nazwę dt na data.

  11. Po usunięciu i zmianie nazwy danych odpowiednio do potrzeb kliknij Ikona Działania po prawej stronie > Przygotuj. Dokumenty są generowane w formacie JSON.
  12. Po wygenerowaniu dokumentów:
    1. Wybierz kartę Zestawy danych.
    2. Aby zweryfikować dokumenty przed uruchomieniem zadania, kliknij Wyświetl dane, aby wyświetlić próbkę danych.
    3. Kliknij Uruchom. Dokumenty są przesyłane do wektorowej bazy danych lub platformy danych w zależności od konfiguracji.

Transfer jest zakończony, gdy przycisk Uruchom jest aktywny.

Aby upewnić się, że wszystko zostało przeniesione, możesz zadać pytania dotyczące swoich danych. Więcej informacji zawiera temat Używanie asystenta testu.

Pełne ładowanie i przechwytywanie zmian danych (CDC)

Obsługiwane jest pełne ładowanie i CDC.

Pełne ładowanie: dokument jest generowany dla każdej instancji dokumentu i zostanie wysłany do celu.

CDC: dokument jest generowany ponownie po każdej zmianie w bazie lub powiązanym elemencie.

Nowy dokument jest tworzony po dodaniu wpisu do elementu bazowego. Jeśli żadnych wpisów w elementach powiązanych nie można połączyć z podmiotem bazowym, nie pojawią się one w dokumentach.

Aktualizacja danych wejściowych

Po zaktualizowaniu danych wejściowych należy uruchomić zadanie danych, aby przenieść zmiany do wektorowej bazy danych lub platformy danych.

Nazwa indeksu

Każda hurtownia wiedzy ma nazwę indeksu, która jest używana do wyszukiwania semantycznego.

Podczas konfigurowania zadań do zapisu w tym samym indeksie należy skonfigurować te same parametry LLM dla zadań.

Jeśli dokumenty mają znajdować się w tym samym indeksie, muszą mieć tę samą nazwę indeksu.

Aby edytować nazwę indeksu:

  1. Na stronie Zadanie danych kliknij przycisk Ustawienia.
  2. Wybierz kartę Ustawienia wektorowej bazy danych.
  3. Edytuj Nazwę indeksu.
  4. Kliknij przycisk OK.

Ustawienia

Ustawienia hurtowni wiedzy można wyświetlać i edytować.

Na stronie Zadanie danych kliknij > Ustawienia.

InformacjaPonieważ ustawienia zależą od pamięci masowej (Databricks, Snowflake itp.), w poniższych tabelach opisano ustawienia, które są zawsze dostępne. Dostępnych może być więcej ustawień.
W tej tabeli opisano ustawienia karty Połączenia.
UstawieniaOpis
Połączenie źródłowe

Połączenie źródłowe.

Przechowuj wektory w

Z listy rozwijanej wybierz:

  • Zewnętrzna wektorowa baza danych
  • Platforma projektu danych
Połączenie z wektorową bazą danych

To ustawienie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.

Połączenie z wektorową bazą danych.

Więcej informacji zawiera temat Łączenie się z wektorowymi bazami danych.

Połączenie z LLMPołączenie z LLM

Więcej informacji zawiera temat Łączenie się z połączeniami z LLM.

Jeśli chcesz używać Databricks jako połączenia LLM, skonfiguruj Punkt końcowy obsługi modelu osadzania i Punkt końcowy obsługi modelu ukończenia podczas tworzenia hurtowni wiedzy. Więcej informacji zawiera dokumentacja Databricks.

W tej tabeli opisano ustawienia karty Ustawienia platformy.
UstawieniaOpis
Schemat zadania dotyczącego danychNazwa schematu zadania danych.
Schemat wewnętrznyNazwa schematu wewnętrznego.
Sufiks dla wszystkich tabel i widokówPrefiks do rozwiązywania konfliktów między kilkoma zadaniami dotyczącymi danych
W tej tabeli opisano ustawienia karty Ustawienia wektorowej bazy danych.
UstawieniaOpis
Schemat indeksu

To ustawienie nie jest dostępne po wybraniu ustawienia Zewnętrzna wektorowa baza danych dla opcji Przechowuj wektory w.

Nazwa schematu indeksu.
Nazwa indeksuNazwa indeksu.
Jeżeli indeks już istniejeGdy wiele zadań zapisuje dane do tego samego indeksu, wybierz, czy indeks ma zostać usunięty, czy nie:
  • Użyj istniejącego indeksu: indeks nie jest usuwany.
  • Usuń i utwórz indeks: indeks zostanie usunięty.
W tej tabeli opisano ustawienia karty Środowisko uruchomienia.
UstawieniaOpis
Wykonanie równoległe

Maksymalna liczba połączeń z bazą danych. 

Wprowadź wartość od 1 do 50.

Rozmiar zbiorczyW przypadku hurtowni wiedzy rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym.

W przypadku hurtowni wiedzy opartych na plikach rozmiar zbiorczy to liczba dokumentów ładowanych w każdym żądaniu zbiorczym.

W Snowflake rozmiar zbiorczy nie jest wymagany, ponieważ wszystko jest ładowane w jednym zapytaniu.

Maksymalna liczba rekordów do załadowania0 oznacza, że załadowane zostały wszystkie rekordy.
W tej tabeli opisano ustawienia karty Widoki.
Ustawienia Opis
Widoki standardowe Użyj standardowych widoków, aby wyświetlić wyniki zapytania tak, jakby była to tabela.
Bezpieczne widoki Snowflake Używaj funkcji bezpiecznych widoków Snowflake w przypadku widoków przeznaczonych do ochrony prywatności danych lub poufnych informacji, takich jak widoki utworzone w celu ograniczenia dostępu do poufnych danych, które nie powinny być dostępne dla wszystkich użytkowników tabel bazowych.

Bezpieczne widoki Snowflake mogą być wykonywane wolniej niż widoki standardowe.

W tej tabeli opisano ustawienia karty Asystent testu.
UstawieniaOpis
Liczba dokumentów w kontekścieLiczba pasujących dokumentów, które zostaną przekazane do modelu jako kontekst.
Szablon promptuWprowadź szablon, który AI musi stosować, aby filtrować dokumenty do uwzględnienia.
FilterWprowadź wyrażenie, aby filtrować dokumenty do uwzględnienia.

Ponieważ filtr jest oparty na metadanych, a hurtownie wiedzy oparte na plikach nie mają metadanych, należy dokładnie przemyśleć konfigurowany filtr. Bardziej odpowiednie może być wykluczanie danych zamiast ich uwzględniania.

Więcej informacji zawiera temat Używanie asystenta testu.

Pobieranie dokumentuWybierz opcję z listy rozwijanej:
  • Pokaż pobrany kontekst: asystent testu udostępnia dokumenty, na podstawie których generuje odpowiedź.
  • Nie pokazuj pobranego kontekstu: asystent testu generuje odpowiedź, ale nie wskazuje dokumentów.
Generowanie odpowiedziWybierz opcję z listy rozwijanej:
  • Generuj odpowiedzi: asystent testu generuje odpowiedź na podstawie dokumentów.
  • Nie generuj odpowiedzi: asystent testu udziela odpowiedzi wyłącznie za pomocą dokumentów.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!