Tworzenie hurtowni wiedzy

Utworzenie hurtowni wiedzy umożliwia osadzanie i przechowywanie ustrukturyzowanych oraz nieustrukturyzowanych danych w wektorowej bazie danych. Umożliwia to pobieranie rozszerzonego kontekstu przy użyciu funkcji wyszukiwania semantycznego w celu wykorzystania go jako kontekstu dla aplikacji do generowania wspomaganego wyszukiwaniem (RAG).

RAG optymalizuje dane wyjściowe LLM poprzez dostarczanie dodatkowego kontekstu do LLM wraz z zapytaniem.

Wymagania

Jest potrzebna subskrypcja Qlik Talend Cloud Enterprise.
Obsługiwane na platformach Snowflake i Databricks. Snowflake Iceberg nie jest obsługiwany.
Wymagana jest brama danych zarządzana przez klienta.

Databricks wymaga Brama danych Qlik — ruch danych w wersji 2024.11.95 lub nowszej.

Instalowanie aplikacji Brama danych Qlik — ruch danych

Aby korzystać z hurtowni wiedzy, należy połączyć się z wektorowymi bazami danych i połączeniami LLM, co wymaga zainstalowania określonej bramy Brama danych Qlik — ruch danych. Więcej informacji zawiera temat Konfigurowanie Brama danych Qlik — ruch danych na potrzeby hurtowni wiedzy.

Przeglądanie i pobieranie dzienników

Można przeglądać i pobierać dzienniki hurtowni danych. Więcej informacji zawiera temat Rozwiązywanie problemów Brama danych ruchu danych.

Wymagania wstępne

Jako źródła dla knowledge martu można użyć zadań danych następujących typów:

Pamięć masowa
Transformacja

Przed utworzeniem knowledge martu należy wykonać następujące czynności w zadaniach danych źródłowych:

Wypełnienie zestawów danych danymi, których chcesz użyć w swoim knowledge marcie. Więcej informacji zawiera temat Dołączanie danych do hurtowni danych.
Utworzenie relacyjnego modelu zestawu danych w celu zdefiniowania relacji między źródłowymi zestawami danych. Więcej informacji zawiera temat Tworzenie modelu danych.

OstrzeżenieWszystkie źródłowe zestawy danych muszą mieć klucze.

Konfigurowanie Databricks dla hurtowni wiedzy

Jeśli używasz Databricks jako platformy danych, musisz wykonać pewne działania konfiguracyjne w Databricks, aby móc tworzyć hurtownie wiedzy.

Utwórz hurtownię SQL w Databricks. Zaleca się używanie opcji Serverless Compute (Obliczeń bezserwerowych).

Należy również skonfigurować Data Security (Bezpieczeństwo danych) dla SQL Warehouses (Hurtowni SQL) i Serverless Compute (Obliczeń bezserwerowych), aby umożliwić integrację pamięci masowej.
Utwórz punkt końcowy w Vector Search (Wyszukiwaniu wektorowym). Do nazwy tego punktu końcowego należy się odwołać Ustawieniach wektorowej bazy danych w zadaniu hurtowni wiedzy.

Wybierz Type (Typ) na podstawie wymagań dotyczących wydajności — Standard jest odpowiedni do większości zastosowań.

W razie potrzeby zdefiniuj Serverless Usage Policy (Zasady użytkowania bezserwerowego), aby powiązać znaczniki na potrzeby przypisywania kosztów.
Skonfiguruj modele Databricks w Serving (Dostarczanie).

W sekcji Serving Endpoints (Punkty końcowe dostarczania) można użyć opcji LLM Embeddings (Osadzenia LLM) i Chat Models (Modele czatów) dostępnych w Databricks. Pamiętaj o zweryfikowaniu modeli, których planujesz użyć w swoim potoku danych.

Możesz również utworzyć Serving Endpoint (Punkt końcowy dostarczania) dla niestandardowego modelu lub użyć Foundation Model (Modelu zasadniczego), na przykład OpenAI lub Azure OpenAI.

Przykłady:

Model osadzania: databricks-gte-large-en

Model czatu/uzupełniania: databricks-meta-llama-3-1-405b-instruct

Ograniczenia

Istnieją ograniczenia w przypadku korzystania ze źródłowych zestawów danych spełniających wszystkie te warunki:

Utworzone przez transformację SQL lub przepływ transformacji
Niezmaterializowane
Magazyn danych historycznych (typ 2) wyłączony

Te zestawy danych są aktualizowane przy każdym uruchomieniu, co może wpływać na wydajność i koszty. Można to złagodzić:

Zmieniając źródłowe zestawy danych, które mają zostać zmaterializowane.
Korzystając z jawnych przekształceń zestawu danych.
Tworząc globalne reguły przekształcania wielu zestawów danych.

Obsługiwany format kodowania

Pliki muszą być poprawnie zakodowane w UTF-8. Inne formaty mogą być błędnie interpretowane.

Qlik dodaje 2 reguły transformacji, które usuwają całą zawartość binarną z danych wyjściowych: QLIK__REMOVE_BLOB_COLUMNS i QLIK__REMOVE_BYTES_COLUMNS.

Obsługiwane znaki

Nazwy plików i folderów mogą zawierać następujące znaki:

[0-9], [a-Z], [A-Z]
! - _ . * ' ()

Inne znaki specjalne mogą być obsługiwane, ale ze względu na pracochłonną obsługę znaków specjalnych zaleca się używanie tylko znaków z powyższej listy.

Relacje

Nie jest możliwe powiązanie danych z dwóch zestawów danych. Utwórz zadanie transformacji, w którym zdefiniujesz relację w modelu danych i użyj zadania transformacji jako źródła dla zadania.
Gdy dwa zestawy danych są powiązane w modelu danych, oba zestawy danych będą dostępne w zadaniu, nawet jeśli wybrano tylko jeden z nich.

Usuwanie zadania

Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.

W widoku Projekt potoku projektu kliknij na zadaniu i wybierz Usuń.

Artefakty (tabele i widoki) utworzone przez zadanie również zostaną usunięte, chyba że zdecydujesz się je zachować.

Pamiętaj, że zachowane artefakty nie będą już aktualizowane przez zadanie.

Jeśli zadanie jest ustawione na Usuń i utwórz indeks, indeks jest usuwany tylko wtedy, gdy wybrano usunięcie artefaktów. Jeśli wybierzesz zachowanie artefaktów, indeks zostanie zachowany.

Zmiana połączeń lub bramy danych

Jeśli zmienisz połączenie wektorowe lub bramę danych wektorowych, musisz ponownie przygotować zadanie.

Rozwiązywanie problemów

Pliki przeniesione do usługi OneDrive nie są rozpoznawane przez File knowledge mart

Możliwa przyczyna

Jeśli pliki są przenoszone lub synchronizowane z usługą OneDrive przy użyciu opcji zachowujących starą datę utworzenia i modyfikacji pliku, plik nie jest rozpoznawany jako nowy plik.

Proponowane działanie

Zmień datę modyfikacji pliku na bieżącą datę.

Błąd wykonania podczas używania Pinecone

Możliwa przyczyna

Wartości NULL w kolumnach metadanych nie są obsługiwane przez Pinecone. Rezultatem byłby błąd wykonania.

Proponowane działanie

Przekształć wartości NULL na inne wartości, na przykład pusty ciąg znaków lub słowo NULL, w transformacji przed hurtownią wiedzy.
Użyj innej bazy danych wektorowych.
Nie używaj kolumny jako metadanych.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię