Vai al contenuto principale Passa a contenuto complementare

Creazione di un knowledge mart basato su file

I knowledge mart basati su file consentono di incorporare e archiviare i dati non strutturati in un database vettoriale. Ciò consente di recuperare il contesto aumentato con funzionalità di ricerca semantica, da utilizzare come contesto per le applicazioni di Retrieval Augmented Generation (RAG).

I formati di input supportati sono: PDF, TXT, e DOCX di Word.

Nota informaticaÈ necessaria una sottoscrizione Qlik Talend Cloud Enterprise.
Nota informaticaQuesta funzionalità è supportata solo sulle piattaforme Snowflake e per un gateway dati gestito dal cliente.

Installazione di Qlik Data Gateway - Data Movement

Prima di creare un knowledge mart, è necessario installare un Qlik Data Gateway - Data Movement specifico. Per ulteriori informazioni, vedere Configurazione di Qlik Data Gateway - Data Movement per i knowledge mart.

Connessioni supportate

Per informazioni sugli elementi supportati:

Creazione di file

  1. Fare clic su Progetti nel menu a sinistra e aprire un progetto.
  2. Dalla pagina Progetto, è possibile creare un knowledge mart basato su file. Eseguire una di queste operazioni:
    • Fare clic su Crea nuovoKnowledge mart basato su file.
    • Fare clic su Icona Azioni dell'attività dati > Knowledge mart basato su file.

    Viene visualizzata la finestra di configurazione.

  3. Immettere un nome.
  4. Inserire una descrizione. Questa opzione è facoltativa.
  5. Creare o selezionare una Connessione di origine.
  6. Selezionare la posizione in cui si desidera archiviare i documenti dall'elenco a discesa Archivia vettori in. Per archiviare i documenti con il progetto, selezionare Piattaforma progetto dati.

  7. Se si è selezionata l'opzione Database vettore esterno, creare o selezionare una Connessione database vettoriale. I documenti e i vettori saranno archiviati in questo database vettoriale.
  8. Creare o selezionare una Connessione LLM. Questa connessione è necessaria per utilizzare la ricerca semantica.
  9. Fare clic su Crea.
  10. Dopo aver creato i knowledge mart, aggiungere i documenti.

Aggiunta di file

Nota informaticaNei documenti viene scritto solo il testo. Non è possibile estrarre del testo da diagrammi o immagini.
  1. Nella scheda Cartelle della pagina Attività dati, selezionare una cartella o fare clic su Seleziona cartelle per selezionarne una nuova.
  2. Sfogliare la cartella, selezionare la casella di controllo della cartella.

    Tutti i file nelle cartelle verranno letti se sono in uno dei formati supportati, indipendentemente dal momento in cui sono stati aggiunti alla cartella.

    Quando si elimina un file esistente nell'indice da una cartella, i dati rimangono nell'indice. Per rimuovere i dati dall'indice, utilizzare lo stesso file ma vuoto.

    Per visualizzare l'elenco dei file presenti nella cartella, fare clic su di esso con il pulsante destro del mouse.

  3. Fare clic su Salva per chiudere la finestra Seleziona cartelle.
  4. Per modificare la dimensione del blocco, la sovrapposizione dei blocchi, fare clic su Impostazioni > Tempo di esecuzione.
  5. Per modificare il nome dell'indice, fare clic su Impostazioni > Impostazioni database vettore.

    Per ulteriori informazioni, vedere Nome indice.

  6. Fare clic su Icona Azioni a destra > Prepara.
  7. Al completamento della preparazione, fare clic su Esegui. I documenti vengono incorporati e trasferiti.

    Il trasferimento viene completato quando il pulsante Esegui è attivo.

  8. Se si tratta del primo caricamento completo, verificare lo stato di ogni file:
    1. Selezionare Monitoraggio nel menu.
    2. Selezionare lo Stato caricamento completo nella parte inferiore della pagina.

      Stato del completo caricamento in Monitoraggio

    3. Se l'esecuzione non viene completata per alcuni file e prima di rieseguire tutto, correggere gli errori o eliminare i file. Se si mantenono i file con errori, le esecuzioni successive falliranno.
    Nota informaticaIl ricaricamento di tutti i file potrebbe comportare costi aggiuntivi.

Quando i file sono corretti, è possibile fare domande sui dati. Per ulteriori informazioni, vedere Utilizzo dell'assistente test.

Caricamento completo e CDC (Change Data Capture)

Sono supportati i caricamenti completi e i processi CDC.

Caricamento completo: per ogni istanza del documento viene generato un documento che verrà inviato al destinatario.

CDC: un documento viene rigenerato dopo ogni modifica.

Quando un file viene modificato o aggiunto, i documenti vengono letti da questo file. Il file verrà suddiviso in documenti dei blocchi in base alla dimensione del blocco e della sovrapposizione.

Se si tratta del primo caricamento completo, verificare lo stato di ogni file:

  1. Selezionare Monitoraggio nel menu.
  2. Selezionare lo Stato caricamento completo nella parte inferiore della pagina.

    Stato del completo caricamento in Monitoraggio

  3. Se l'esecuzione non viene completata per alcuni file e prima di rieseguire tutto, correggere gli errori o eliminare i file. Se si mantenono i file con errori, le esecuzioni successive falliranno.
Nota informaticaIl ricaricamento di tutti i file potrebbe comportare costi aggiuntivi.

Aggiornamento dei dati di input

Quando si aggiornano i dati di input, è necessario eseguire l'attività dati per trasferire le modifiche al database vettoriale o alla piattaforma dati.

Poiché i vecchi blocchi vengono eliminati e i nuovi blocchi vengono inseriti, il campo hdr__operation corrisponde a un'operazione di inserimento, non a un'operazione di aggiornamento. Per maggiori informazioni, vedere Architettura del set di dati in un cloud data warehouse.

Nome indice

Ogni knowledge mart ha un nome di indice che viene utilizzato per le ricerche semantiche.

Quando si impostano attività per scrivere nello stesso indice, è necessario configurare gli stessi parametri LLM per le attività.

Se si desidera applicare la stessa indicizzazione per i documenti, è necessario assegnare lo stesso nome al relativo indice.

Per modificare il nome dell'indice:

  1. Nella pagina Attività dati, fare clic su Impostazioni.
  2. Selezionare la scheda Impostazioni database vettore.
  3. Modificare il Nome indice.
  4. Fare clic su OK.

Dopo aver modificato il nome dell'indice, è necessario preparare l'attività. In caso contrario, le modifiche non verranno applicate nelle esecuzioni successive.

Impostazioni

È possibile visualizzare e modificare le impostazioni di un knowledge mart.

Nella pagina Attività dati, fare clic su > Impostazioni.

Nota informaticaPoiché le impostazioni dipendono dall'archiviazione (Databricks, Snowflake, ecc.), le tabelle seguenti descrivono le impostazioni che sono sempre disponibili. Possono essere disponibili altre impostazioni.
Questa tabella descrive le impostazioni della scheda Connessioni.
ImpostazioniDescrizione
Connessione di origine

La connessione di origine.

Archivia vettori in

Dall'elenco a discesa, selezionare:

  • Database vettore esterno
  • Piattaforma progetto dati
Connessione database vettoriale

Questa impostazione è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in.

La connessione del database vettoriale.

Per ulteriori informazioni, vedere Connessione ai database vettoriali.

Connessione LLMLa connessione LLM.

Per ulteriori informazioni, vedere Connessione alle connessioni LLM.

Quando si desidera utilizzare Databricks come connessione LLM, configurare le opzioni Endpoint di servizio modello di incorporamento e Endpoint di servizio modello di completamento quando si crea il knowledge mart. Per maggiori informazioni, consultare la documentazione di Databricks.

Questa tabella descrive le impostazioni della scheda Impostazioni piattaforma.
ImpostazioniDescrizione
Schema attività datiIl nome dello schema dell'attività dati.
Schema internoIl nome dello schema interno.
Prefisso per tutte le tabelle e le visualizzazioniIl prefisso per risolvere i conflitti tra pipu attività dati.
Questa tabella descrive le impostazioni della scheda Impostazioni database vettore.
ImpostazioniDescrizione
Schema indice

Questa impostazione non è disponibile quando si seleziona il Database esterno vettore per Archivia vettori in.

Il nome dello schema di indicizzazione.
Nome indiceIl nome dell'indicizzazione.
Se l'indicizzazione esiste giàQuando più attività scrivono nella stessa indicizzazione, selezionare se l'indicizzazione deve essere eliminata o meno:
  • Usa indicizzazione esistente: l'indicizzazione non viene eliminata.
  • Rimuovi e crea indice: l'indicizzazione viene eliminata.
Questa tabella descrive le impostazioni della scheda Tempo di esecuzione.
ImpostazioniDescrizione
Esecuzione parallela

Il numero massimo di connessioni al database. 

Inserire un valore compreso tra 1 e 50.

Dimensioni bloccoPer i knowledge mart, le dimensioni del blocco sono costituite dal numero di documenti caricati in ogni richiesta in blocco.

Per i knowledge mart basati su file, le dimensioni del blocco sono costituite dal numero di file caricati in ogni richiesta in blocco.

Su Snowflake, le dimensioni del blocco non sono richieste, perché tutti i contenuti vengono caricati in un'unica query.

Numero massimo di record da caricare0 significa che tutti i record vengono caricati.
Questa tabella descrive le impostazioni della scheda Viste.
Impostazioni Descrizione
Viste standard Utilizzare le viste standard per visualizzare i risultati di una query come se fosse una tabella.
Viste sicure Snowflake Utilizzare le viste sicure di Snowflake per le viste designate per la privacy dei dati o la protezione delle informazioni sensibili, come le viste create per limitare l'accesso ai dati sensibili che non devono essere esposti a tutti gli utenti delle tabelle sottostanti.

Le viste sicure di Snowflake possono essere eseguite più lentamente rispetto alle viste Standard.

Questa tabella descrive le impostazioni della scheda Assistente test.
ImpostazioniDescrizione
Numero di documenti in contestoIl numero di documenti rilevanti che verranno passati al modello come contesto.
Modello promptInserire il modello che l'IA deve seguire per filtrare i documenti da includere.
FiltroInserire l'espressione per filtrare i documenti da includere.

Poiché il filtro si basa sui metadati e i knowledge mart basati su file non hanno metadati, considerare attentamente il filtro che da configurare. Potrebbe essere più pertinente escludere i dati anziché includerli.

Per ulteriori informazioni, vedere Utilizzo dell'assistente test.

Recupero documentoSelezionare l'opzione dall'elenco a discesa:
  • Mostra contesto recuperato: l'Assistente test fornisce i documenti che utilizza per generare le risposte.
  • Non mostrare contesto recuperato: l'Assistente test genera una risposta, ma non fornisce i documenti.
Generazione risposteSelezionare l'opzione dall'elenco a discesa:
  • Genera risposte: l'Assistente test genera una risposta in base ai documenti.
  • Non generare risposte: l'Assistente test risponde unicamente con i documenti.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!