Saltar al contenido principal Saltar al contenido complementario

Creación de un almacén de conocimiento basado en archivos

Los almacenes de conocimiento basados en archivos permiten integrar y almacenar sus datos no estructurados en una base de datos vectorial. Esto permite recuperar el contexto aumentado con funciones de búsqueda semántica para utilizarlo como contexto en aplicaciones de generación aumentada de recuperación (RAG).

Los formatos de entrada admitidos son: PDF, TXT, y Word DOCX.

Nota informativaNecesita una suscripción a Qlik Talend Cloud Enterprise.
Nota informativaEsta función solo es compatible con las plataformas Snowflake y para una pasarela de datos gestionada por el cliente.

Instalar Qlik Data Gateway - Data Movement

Antes de crear un almacén de conocimiento basado en archivos debe instalar un Qlik Data Gateway - Data Movement específico. Para más información, vea Configuración de Qlik Data Gateway - Data Movement para almacenes de conocimiento.

Conexiones admitidas

Para obtener información sobre la compatibilidad de:

Creación de los archivos

  1. Haga clic en Proyectos en el menú de la izquierda y abra un proyecto.
  2. Desde la página Proyecto, puede crear un almacén de conocimiento basado en archivos. O bien:
    • Haga clic en Crear nuevo > Almacén de conocimiento basado en archivos.
    • Haga clic en Icono de acciones de la tarea de datos > Almacén de conocimiento basado en archivos.

    Se abre la ventana de configuración.

  3. Indique un nombre
  4. Inserte una descripción. Esto es opcional.
  5. Cree o seleccione una conexión de fuente.
  6. Seleccione dónde almacenar los documentos en la lista desplegable Almacenar vectores en. Para almacenar los documentos con el proyecto, seleccione Plataforma de proyecto de datos.

  7. Si ha seleccionado Base de datos vectorial externa, cree o seleccione una conexión a la base de datos vectorial. Los documentos y los vectores se almacenarán en esta base de datos vectorial.
  8. Cree o seleccione una conexión LLM. Esta conexión es necesaria para utilizar la búsqueda semántica.
  9. Haga clic en Crear.
  10. Una vez creado el almacén de conocimiento, añada documentos.

Agregar archivos

Nota informativaEn los documentos solo se escribe texto. No se puede extraer texto de diagramas o imágenes.
  1. En la pestaña Carpetas de la página de tareas Datos, seleccione una carpeta o haga clic en Seleccionar carpetas para seleccionar una nueva.
  2. Navegue hasta la carpeta, seleccione la casilla de verificación de la carpeta.

    Todos los archivos de las carpetas se leerán si están en uno de los formatos admitidos, independientemente de cuándo se hayan añadido a la carpeta.

    Cuando elimina de una carpeta un archivo que ya existe en el índice, los datos siguen estando en el índice. Para eliminar los datos del índice, utilice el mismo archivo, pero vacío.

    Para mostrar la lista de archivos de la carpeta, haga clic en ella con el botón derecho del ratón.

  3. Haga clic en Guardar para cerrar la ventana Seleccionar carpetas.
  4. Para editar el tamaño de los fragmentos, el solapamiento de los fragmentos, haga clic en Configuración > Tiempo de ejecución.
  5. Para editar el nombre del índice, haga clic en Configuración > Configuración de la base de datos vectorial.

    Para más información, vea Nombre del índice.

  6. Haga clic en Icono de acciones a la derecha > Preparar.
  7. Una vez finalizada la preparación, haga clic en Ejecutar. Los documentos se están incrustando y transfiriendo.

    La transferencia se completa cuando el botón Ejecutar está activo.

  8. Cuando sea la primera Carga completa, verifique el estado de cada archivo:
    1. Seleccione Monitor en el menú.
    2. Seleccione Estado de carga completa en la parte inferior de la página.

      Estado de carga completa en el monitor

    3. Cuando fallen algunos archivos y antes de volver a ejecutarlo todo, corrija los errores o elimine los archivos. Si mantiene los archivos en error, las siguientes ejecuciones fallarán.
    Nota informativaRecargar todos los archivos podría acarrear costes adicionales.

Cuando sus archivos sean correctos, podrá hacer preguntas sobre sus datos. Para más información, vea Uso del asistente de pruebas.

Carga completa y Captura de datos modificados (CDC)

Carga completa y CDC son compatibles.

Carga completa: Se genera un documento para cada instancia de documento y se enviará al destino.

CDC: Un documento se regenera tras cualquier cambio.

Cuando se modifica o añade un archivo, los documentos se leen de este archivo. El archivo se dividirá en documentos de trozos según el tamaño del trozo y el solapamiento.

Cuando sea la primera Carga completa, verifique el estado de cada archivo:

  1. Seleccione Monitor en el menú.
  2. Seleccione Estado de carga completa en la parte inferior de la página.

    Estado de carga completa en el monitor

  3. Cuando fallen algunos archivos y antes de volver a ejecutarlo todo, corrija los errores o elimine los archivos. Si mantiene los archivos en error, las siguientes ejecuciones fallarán.
Nota informativaRecargar todos los archivos podría acarrear costes adicionales.

Actualización de los datos de entrada

Cuando actualice los datos de entrada, deberá ejecutar la tarea de datos para transferir los cambios a la base de datos de vectores o a la plataforma de datos.

Como se borran fragmentos antiguos y se insertan fragmentos nuevos, el campo hdr__operation corresponde a una operación de inserción, no de actualización. Para obtener más información, consulte Arquitectura de conjuntos de datos en un almacén de datos en la nube

Nombre del índice

Cada almacén de conocimiento tiene un nombre de índice que se utiliza para la búsqueda semántica.

Cuando configure tareas para escribir en el mismo índice, deberá configurar los mismos parámetros de LLM para las tareas.

Si quiere que sus documentos estén en el mismo índice, deben tener el mismo nombre de índice.

Para editar el nombre del índice:

  1. En la página Tarea de datos, haga clic en Configuración.
  2. Seleccione la pestaña Configuración de la base de datos vectorial.
  3. Edite el nombre del índice.
  4. Haga clic en Aceptar.

Después de editar el nombre del índice, debe preparar la tarea. De lo contrario, sus cambios no se aplicarán en las siguientes ejecuciones.

Configuración

Puede ver y editar la configuración de un almacén de conocimiento.

En la página Tarea de datos, haga clic en > Configuración.

Nota informativaComo los ajustes dependen del almacenamiento (Databricks, Snowflake, etc.), las tablas siguientes describen los ajustes que están siempre disponibles. Puede haber más ajustes disponibles.
Esta tabla describe los ajustes de la pestaña Conexiones.
ConfiguraciónDescripción
Conexión de fuente

La conexión de fuente.

Almacenar vectores en

En la lista desplegable, seleccione:

  • Base de datos vectorial externa
  • Plataforma de proyecto de datos
Conexión a la base de datos vectorial

Este ajuste está disponible cuando se selecciona Base de datos vectorial externa para Almacenar vectores en.

La conexión a la base de datos vectorial.

Para más información, vea Conexión a bases de datos vectoriales.

Conexión a LLMLa conexión a LLM.

Para más información, vea Conexión a las conexiones LLM.

Si desea utilizar Databricks como conexión LLM, configure el punto de conexión de servicio del modelo de incrustación y el punto de conexión de servicio del modelo de finalización al crear el almacén de conocimiento. Para más información, consulte la documentación de Databricks.

Esta tabla describe los ajustes de la pestaña Configuración de plataforma.
ConfiguraciónDescripción
Esquema de tarea de datosPuede cambiar el nombre del esquema de la tarea de datos.
Esquema internoEl nombre del esquema interno.
Prefijo para todas las tablas y vistasEl prefijo para resolver conflictos entre varias tareas de datos.
Esta tabla describe los ajustes de la pestaña Configuración de base de datos vectorial.
ConfiguraciónDescripción
Esquema de índice

Este ajuste no está disponible cuando se selecciona Base de datos vectorial externa para Almacenar vectores en.

El nombre del esquema del índice.
Nombre del índiceEl nombre del índice.
Si el índice ya existeCuando varias tareas escriben en el mismo índice, seleccione si el índice debe borrarse o no:
  • Utiliza el índice existente: El índice no se borra.
  • Eliminar y crear el índice: El índice se elimina.
Esta tabla describe los ajustes de la pestaña Tiempo de ejecución.
ConfiguraciónDescripción
Ejecución en paralelo

El número máximo de conexiones de base de datos. 

Introduzca un valor de 1 a 50.

Tamaño en masaPara los almacenes de conocimiento, el tamaño del lote es el número de documentos cargados en cada solicitud de lote.

Para los almacenes de conocimiento basados en archivos, el tamaño del lote es el número de documentos cargados en cada solicitud de lote.

En Snowflake, el tamaño del lote no es necesario, ya que todo se carga en una sola consulta.

Número máximo de registros que cargar0 significa que se cargan todos los registros.
Esta tabla describe los ajustes de la pestaña Vistas.
Configuración Descripción
Vistas estándar Utilice las vistas estándar para mostrar los resultados de una consulta como si se tratara de una tabla.
Vistas seguras de Snowflake Utilice las vistas seguras de Snowflake para aquellas vistas que precisen protección de la privacidad de datos o de la información sensible, como las vistas creadas para limitar el acceso a datos sensibles que no deban estar expuestos a todos los usuarios de las tablas.

Las vistas seguras de Snowflake pueden ejecutarse más lentamente que las vistas Estándar.

Esta tabla describe los ajustes de la pestaña Asistente de pruebas.
ConfiguraciónDescripción
Número de documentos en contextoEl número de documentos relevantes que se transferirán al modelo como contexto.
Plantilla de solicitudIntroduzca la plantilla que debe seguir la IA para filtrar los documentos que deben incluirse.
FiltrarIntroduzca la expresión para filtrar los documentos que deben incluirse.

Como el filtro se basa en los metadatos y los almacenes de conocimiento basados en archivos no tienen metadatos, piense detenidamente en el filtro que está configurando. Podría ser más pertinente excluir los datos en lugar de incluirlos.

Para más información, vea Uso del asistente de pruebas.

Recuperación de documentosSeleccione la opción en la lista desplegable:
  • Mostrar el contexto recuperado: El asistente de pruebas proporciona los documentos a partir de los cuales genera la respuesta.
  • No mostrar el contexto recuperado: El asistente de pruebas genera una respuesta, pero no proporciona los documentos.
Generación de respuestasSeleccione la opción en la lista desplegable:
  • Generar respuestas: El asistente de pruebas genera una respuesta basada en los documentos.
  • No generar respuestas: El asistente de pruebas responde solo con documentos.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.