Creazione di un knowledge mart
I knowledge mart consentono di incorporare e archiviare i dati strutturati in un database vettoriale. Ciò consente di recuperare il contesto aumentato con funzionalità di ricerca semantica, da utilizzare come contesto per le applicazioni di Retrieval Augmented Generation (RAG).
L'output è nel formato JSON
.
Installazione di Qlik Data Gateway - Data Movement
Prima di creare un knowledge mart, è necessario installare un Qlik Data Gateway - Data Movement specifico. Per ulteriori informazioni, vedere Configurazione di Qlik Data Gateway - Data Movement per i knowledge mart.
Connessioni supportate
Per informazioni sugli elementi supportati:
- Database vettoriali, vedere Connessione ai database vettoriali.
- Connessioni LLM, vedere Connessione alle connessioni LLM.
- Archiviazione di file, vedere Connessione a un'archiviazione file.
Creazione di dati
- Fare clic su Progetti nel menu a sinistra e aprire un progetto.
- Dalla pagina Progetti, è possibile generare e pubblicare documenti in un database vettoriale. Eseguire una di queste operazioni:
- Fare clic su Crea nuovo > Knowledge mart.
- Fare clic su
dell'attività dati > Knowledge mart.
Viene visualizzata la finestra di configurazione.
- Immettere un nome.
- Inserire una descrizione. Questa opzione è facoltativa.
- Selezionare la posizione in cui si desidera archiviare i documenti dall'elenco a discesa Archivia vettori in. Per archiviare i documenti con il progetto, selezionare Piattaforma progetto dati.
- Se si è selezionata l'opzione Database vettore esterno, creare o selezionare una Connessione database vettoriale. I documenti e i vettori saranno archiviati in questo database vettoriale.
- Creare o selezionare una Connessione LLM. Questa connessione è necessaria per utilizzare la ricerca semantica.
- Fare clic su Crea.
- Dopo aver creato i dati, aggiungere i documenti.
Aggiunta di documenti
- Nella scheda Set di dati della pagina Attività dati, fare clic su Aggiungi nel pannello a sinistra.
- Selezionare il set di dati di base da cui verrà generato il documento. Verrà creato un documento per ogni record. Ad esempio, per un elenco di pazienti, verrà creato un documento per ogni paziente.
- Il campo Nome schema documento viene precompilato con il nome del set di dati di base selezionato. Se necessario, rinominarlo.
- Inserire una descrizione. Questa opzione è facoltativa.
- Selezionare i dati che si desidera includere per arricchire il documento.
- Fare clic su OK. Si viene riportati alla scheda Schemi documento.
- Selezionare la scheda Set di dati.
- Nel pannello di sinistra, selezionare il set di dati scelto in precedenza come set di dati di base.
- Per rimuovere i dati che non si desidera includere nei documenti, selezionare la casella di controllo e fare clic su Rimuovi.
- Per migliorare la ricerca semantica eseguita dall'LLM, rinominare i dati i cui nomi non sono sufficientemente chiari.
Esempio: rinominare dt in data.
- Dopo aver rimosso e rinominato i dati in baser alle necessità, fare clic su
sulla destra > Prepara. I documenti vengono generati nel formato
JSON
. - Quando i documenti vengono generati:
- Selezionare la scheda Set di dati.
- Per verificare i documenti prima di eseguire l'attività, fare clic su Visualizza dati per visualizzare un campione di dati.
- Fare clic su Esegui. I documenti vengono trasferiti al database vettoriale o alla piattaforma dati, a seconda della configurazione.
Il trasferimento viene completato quando il pulsante Esegui è attivo.
Per assicurarsi che tutti i contenuti siano stati trasferiti correttamente, è possibile fare domande sui dati. Per ulteriori informazioni, vedere Utilizzo dell'assistente test.
Caricamento completo e Modifica aquisizione dati (CDC)
Sono supportati i caricamenti completi e i processi CDC.
Caricamento completo: per ogni istanza del documento viene generato un documento che verrà inviato al destinatario.
CDC: un documento viene rigenerato dopo qualsiasi modifica dell'entità di base o di quella correlata.
Un nuovo documento viene creato quando viene aggiunta una voce all'entità di base. Se non è possibile collegare a un'entità di base nessuna voce delle entità correlate, questa non verrà visualizzata nei documenti.
Aggiornamento dei dati di input
Quando si aggiornano i dati di input, è necessario eseguire l'attività dati per trasferire le modifiche al database vettoriale o alla piattaforma dati.
Nome indice
Ogni knowledge mart ha un nome di indice che viene utilizzato per le ricerche semantiche.
Quando si impostano attività per scrivere nello stesso indice, è necessario configurare gli stessi parametri LLM per le attività.
Se si desidera applicare la stessa indicizzazione per i documenti, è necessario assegnare lo stesso nome al relativo indice.
Per modificare il nome dell'indice:
- Nella pagina Attività dati, fare clic su Impostazioni.
- Selezionare la scheda Impostazioni database vettore.
- Modificare il Nome indice.
- Fare clic su OK.
Impostazioni
È possibile visualizzare e modificare le impostazioni di un knowledge mart.
Nella pagina Attività dati, fare clic su > Impostazioni.
Impostazioni | Descrizione |
Connessione di origine | La connessione di origine. |
Archivia vettori in | Dall'elenco a discesa, selezionare:
|
Connessione database vettoriale Questa impostazione è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in. | La connessione del database vettoriale. Per ulteriori informazioni, vedere Connessione ai database vettoriali. |
Connessione LLM | La connessione LLM. Per ulteriori informazioni, vedere Connessione alle connessioni LLM. Quando si desidera utilizzare Databricks come connessione LLM, configurare le opzioni Endpoint di servizio modello di incorporamento e Endpoint di servizio modello di completamento quando si crea il knowledge mart. Per maggiori informazioni, consultare la documentazione di Databricks. |
Impostazioni | Descrizione |
Schema attività dati | Il nome dello schema dell'attività dati. |
Schema interno | Il nome dello schema interno. |
Prefisso per tutte le tabelle e le visualizzazioni | Il prefisso per risolvere i conflitti tra pipu attività dati. |
Impostazioni | Descrizione |
Schema indice Questa impostazione non è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in. | Il nome dello schema di indicizzazione. |
Nome indice | Il nome dell'indicizzazione. |
Se l'indicizzazione esiste già | Quando più attività scrivono nella stessa indicizzazione, selezionare se l'indicizzazione deve essere eliminata o meno:
|
Impostazioni | Descrizione |
Esecuzione parallela | Il numero massimo di connessioni al database. Inserire un valore compreso tra 1 e 50. |
Dimensioni blocco | Per i knowledge mart, le dimensioni del blocco sono costituite dal numero di documenti caricati in ogni richiesta in blocco. Per i knowledge mart basati su file, le dimensioni del blocco sono costituite dal numero di file caricati in ogni richiesta in blocco. Su Snowflake, le dimensioni del blocco non sono richieste, perché tutti i contenuti vengono caricati in un'unica query. |
Numero massimo di record da caricare | 0 significa che tutti i record vengono caricati. |
Impostazioni | Descrizione |
Viste standard | Utilizzare le viste standard per visualizzare i risultati di una query come se fosse una tabella. |
Viste sicure Snowflake | Utilizzare le viste sicure di Snowflake per le viste designate per la privacy dei dati o la protezione delle informazioni sensibili, come le viste create per limitare l'accesso ai dati sensibili che non devono essere esposti a tutti gli utenti delle tabelle sottostanti. Le viste sicure di Snowflake possono essere eseguite più lentamente rispetto alle viste Standard. |
Impostazioni | Descrizione |
Numero di documenti in contesto | Il numero di documenti rilevanti che verranno passati al modello come contesto. |
Modello prompt | Inserire il modello che l'IA deve seguire per filtrare i documenti da includere. |
Filtro | Inserire l'espressione per filtrare i documenti da includere. Poiché il filtro si basa sui metadati e i knowledge mart basati su file non hanno metadati, considerare attentamente il filtro che da configurare. Potrebbe essere più pertinente escludere i dati anziché includerli. Per ulteriori informazioni, vedere Utilizzo dell'assistente test. |
Recupero documento | Selezionare l'opzione dall'elenco a discesa:
|
Generazione risposte | Selezionare l'opzione dall'elenco a discesa:
|