Creazione di un knowledge mart

I knowledge mart consentono di incorporare e archiviare i dati strutturati in un database vettoriale. Ciò consente di recuperare il contesto aumentato con funzionalità di ricerca semantica, da utilizzare come contesto per le applicazioni di Retrieval Augmented Generation (RAG).

L'output è nel formato JSON.

È necessaria una sottoscrizione Qlik Talend Cloud Enterprise.

Requisiti

È necessaria una sottoscrizione Qlik Talend Cloud Enterprise.
Supportato sulle piattaforme Snowflake e Databricks. Snowflake Iceberg non è supportato.
È richiesto un gateway dati gestito dal cliente.

Databricks richiede Qlik Data Gateway - Movimento dati versione 2024.11.95 o successive.

Installazione di Qlik Data Gateway - Movimento dati

Prima di creare un knowledge mart, è necessario installare un Qlik Data Gateway - Movimento dati specifico. Per ulteriori informazioni, vedere Configurazione di Qlik Data Gateway - Movimento dati per i knowledge mart.

Connessioni supportate

Per informazioni sugli elementi supportati:

Database vettoriali, vedere Connessione ai database vettoriali.
Connessioni LLM, vedere Connessione alle connessioni LLM.
Archiviazione di file, vedere Connessione a un'archiviazione file.

Creazione di dati

Fare clic su Progetti pipeline nel menu a sinistra e aprire un progetto.
Dalla pagina Progetto pipeline, è possibile generare e pubblicare documenti in un database vettoriale. Eseguire una di queste operazioni:
- Fare clic su Crea nuovo > Knowledge mart.
- Fare clic su dell'attività dati > Knowledge mart.
Viene visualizzata la finestra di configurazione.
Immettere un nome.
Inserire una descrizione. Questa opzione è facoltativa.
Selezionare la posizione in cui si desidera archiviare i documenti dall'elenco a discesa Archivia vettori in. Per archiviare i documenti con il progetto, selezionare Piattaforma progetto dati.
Se si è selezionata l'opzione Database vettore esterno, creare o selezionare una Connessione database vettoriale. I documenti e i vettori saranno archiviati in questo database vettoriale.
Creare o selezionare una Connessione LLM. Questa connessione è necessaria per utilizzare la ricerca semantica.
Fare clic su Crea.
Dopo aver creato i dati, aggiungere i documenti.

Aggiunta di documenti

È supportato solo il formato di testo. Ad esempio, non è possibile estrarre del testo da diagrammi o immagini.

Nella scheda Set di dati della pagina Attività dati, fare clic su Aggiungi nel pannello a sinistra.
Selezionare il set di dati di base da cui verrà generato il documento. Verrà creato un documento per ogni record. Ad esempio, per un elenco di pazienti, verrà creato un documento per ogni paziente.
Il campo Nome schema documento viene precompilato con il nome del set di dati di base selezionato. Se necessario, rinominarlo.
Inserire una descrizione. Questa opzione è facoltativa.
Selezionare i dati che si desidera includere per arricchire il documento.
Fare clic su OK. Si viene riportati alla scheda Schemi documento.
Selezionare la scheda Set di dati.
Nel pannello di sinistra, selezionare il set di dati scelto in precedenza come set di dati di base.
Per rimuovere i dati che non si desidera includere nei documenti, selezionare la casella di controllo e fare clic su Rimuovi.
Seleziona Metadati per tutti i campi che si desidera definire come metadati. È possibile filtrare in base ai metadati prima di inviare i dati all'LLM.

Nota informaticaSu Databricks, i metadati sono implementati da un singolo campo contenente una rappresentazione JSON della chiave e dei valori dei campi metadati selezionati.
Per migliorare la ricerca semantica eseguita dall'LLM, rinominare i dati i cui nomi non sono sufficientemente chiari.
Esempio: rinominare dt in data.
Dopo aver rimosso e rinominato i dati in baser alle necessità, fare clic su sulla destra > Prepara. I documenti vengono generati nel formato JSON.
Quando i documenti vengono generati:
1. Selezionare la scheda Set di dati.
2. Per verificare i documenti prima di eseguire l'attività, fare clic su Visualizza dati per visualizzare un campione di dati.
3. Fare clic su Esegui. I documenti vengono trasferiti al database vettoriale o alla piattaforma dati, a seconda della configurazione.

Il trasferimento viene completato quando il pulsante Esegui è attivo.

Per assicurarsi che tutti i contenuti siano stati trasferiti correttamente, è possibile fare domande sui dati. Per ulteriori informazioni, vedere Utilizzo dell'assistente test.

Caricamento completo e Modifica aquisizione dati (CDC)

Sono supportati i caricamenti completi e i processi CDC.

Caricamento completo: per ogni istanza del documento viene generato un documento che verrà inviato al destinatario.

CDC: un documento viene rigenerato dopo qualsiasi modifica dell'entità di base o di quella correlata.

Un nuovo documento viene creato quando viene aggiunta una voce all'entità di base. Se non è possibile collegare a un'entità di base nessuna voce delle entità correlate, questa non verrà visualizzata nei documenti.

Aggiornamento dei dati di input

Quando si aggiornano i dati di input, è necessario eseguire l'attività dati per trasferire le modifiche al database vettoriale o alla piattaforma dati.

Nome indice

Ogni knowledge mart ha un nome di indice che viene utilizzato per le ricerche semantiche.

Quando si impostano attività per scrivere nello stesso indice, è necessario configurare gli stessi parametri LLM per le attività.

Se si desidera applicare la stessa indicizzazione per i documenti, è necessario assegnare lo stesso nome al relativo indice.

Per modificare il nome dell'indice:

Nella pagina Attività dati, fare clic su Impostazioni.
Selezionare la scheda Impostazioni database vettore.
Modificare il Nome indice.
Fare clic su OK.

Visualizzazione delle informazioni sull'attività

Fare clic su sulla barra dei menu per visualizzare le informazioni sull'attività, ad esempio:

Proprietario
Spazio
Piattaforma dati
ID progetto
ID tempo di esecuzione attività dati

Impostazioni

È possibile visualizzare e modificare le impostazioni di un knowledge mart.

Nella pagina Attività dati, fare clic su > Impostazioni.

Poiché le impostazioni dipendono dall'archiviazione (Databricks, Snowflake, ecc.), le tabelle seguenti descrivono le impostazioni che sono sempre disponibili. Possono essere disponibili altre impostazioni.

Questa tabella descrive le impostazioni della scheda Connessioni.
Impostazioni	Descrizione
Connessione di origine	La connessione di origine.
Archivia vettori in	Dall'elenco a discesa, selezionare: Database vettore esterno Piattaforma progetto dati
Connessione database vettoriale Questa impostazione è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in.	La connessione del database vettoriale. Per ulteriori informazioni, vedere Connessione ai database vettoriali.
Connessione LLM	La connessione LLM. Per ulteriori informazioni, vedere Connessione alle connessioni LLM. Quando si desidera utilizzare Databricks come connessione LLM, configurare le opzioni Endpoint di servizio modello di incorporamento e Endpoint di servizio modello di completamento quando si crea il knowledge mart. Per maggiori informazioni, consultare la documentazione di Databricks.

Questa tabella descrive le impostazioni della scheda Impostazioni piattaforma.
Impostazioni	Descrizione
Schema attività dati	Il nome dello schema dell'attività dati.
Schema interno	Il nome dello schema interno.
Prefisso per tutte le tabelle e le visualizzazioni	Il prefisso per risolvere i conflitti tra pipu attività dati.

Questa tabella descrive le impostazioni della scheda Impostazioni database vettore.
Impostazioni	Descrizione
Schema indice Questa impostazione non è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in.	Il nome dello schema di indicizzazione.
Nome indice	Il nome dell'indicizzazione.
Se l'indicizzazione esiste già	Quando più attività scrivono nella stessa indicizzazione, selezionare se l'indicizzazione deve essere eliminata o meno: Usa indicizzazione esistente: l'indicizzazione non viene eliminata. Rimuovi e crea indice: l'indicizzazione viene eliminata.
Endpoint di ricerca vettore Databricks	Il nome dell'endpoint di ricerca vettoriale creato in Databricks. Per ulteriori informazioni, vedere Configurazione di Databricks per i knowledge mart . Nota informaticaApplicabile solo ai progetti che utilizzano Databricks come piattaforma dati.

Questa tabella descrive le impostazioni della scheda Tempo di esecuzione.
Impostazioni	Descrizione
Esecuzione parallela	Il numero massimo di connessioni al database. Inserire un valore compreso tra 1 e 50.
Dimensioni blocco	Per i knowledge mart, le dimensioni del blocco sono costituite dal numero di documenti caricati in ogni richiesta in blocco. Per i knowledge mart basati su file, le dimensioni del blocco sono costituite dal numero di file caricati in ogni richiesta in blocco. Su Snowflake e Databricks, le dimensioni del blocco non sono richieste, perché tutti i contenuti vengono caricati in un'unica query.
Numero massimo di record da caricare	0 significa che tutti i record vengono caricati.

Questa tabella descrive le impostazioni della scheda Viste per Snowflake
Impostazioni	Descrizione
Viste standard	Utilizzare le viste standard per visualizzare i risultati di una query come se fosse una tabella.
Viste sicure Snowflake	Utilizzare le viste sicure di Snowflake per le viste designate per la privacy dei dati o la protezione delle informazioni sensibili, come le viste create per limitare l'accesso ai dati sensibili che non devono essere esposti a tutti gli utenti delle tabelle sottostanti. Le viste sicure di Snowflake possono essere eseguite più lentamente rispetto alle viste Standard.

Questa tabella descrive le impostazioni della scheda Assistente test.
Impostazioni	Descrizione
Numero di documenti in contesto	Il numero di documenti rilevanti che verranno passati al modello come contesto.
Modello prompt	Inserire il modello che l'IA deve seguire per filtrare i documenti da includere.
Filtro	Inserire l'espressione per filtrare i documenti da includere. Poiché il filtro si basa sui metadati e i knowledge mart basati su file non hanno metadati, considerare attentamente il filtro che da configurare. Potrebbe essere più pertinente escludere i dati anziché includerli. Per ulteriori informazioni, vedere Utilizzo dell'assistente test.
Recupero documento	Selezionare l'opzione dall'elenco a discesa: Mostra contesto recuperato: l'Assistente test fornisce i documenti che utilizza per generare le risposte. Non mostrare contesto recuperato: l'Assistente test genera una risposta, ma non fornisce i documenti.
Generazione risposte	Selezionare l'opzione dall'elenco a discesa: Genera risposte: l'Assistente test genera una risposta in base ai documenti. Non generare risposte: l'Assistente test risponde unicamente con i documenti.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback