Creación de un almacén de conocimiento basado en archivos
Los almacenes de conocimiento basados en archivos permiten integrar y almacenar sus datos no estructurados en una base de datos vectorial. Esto permite recuperar el contexto aumentado con funciones de búsqueda semántica para utilizarlo como contexto en aplicaciones de generación aumentada de recuperación (RAG).
Los formatos de entrada admitidos son: PDF
, TXT
, y Word DOCX
.
Instalar Qlik Data Gateway - Data Movement
Antes de crear un almacén de conocimiento basado en archivos debe instalar un Qlik Data Gateway - Data Movement específico. Para más información, vea Configuración de Qlik Data Gateway - Data Movement para almacenes de conocimiento.
Conexiones admitidas
Para obtener información sobre la compatibilidad de:
- Bases de datos vectoriales, véase Conexión a bases de datos vectoriales.
- Conexiones LLM, véase Conexión a las conexiones LLM.
- Almacenamiento de archivos, véase Conexión con el almacenamiento de archivos.
Creación de los archivos
- Haga clic en Proyectos en el menú de la izquierda y abra un proyecto.
- Desde la página Proyecto, puede crear un almacén de conocimiento basado en archivos. O bien:
- Haga clic en Crear nuevo > Almacén de conocimiento basado en archivos.
- Haga clic en
de la tarea de datos > Almacén de conocimiento basado en archivos.
Se abre la ventana de configuración.
- Indique un nombre
- Inserte una descripción. Esto es opcional.
- Cree o seleccione una conexión de fuente.
-
Seleccione dónde almacenar los documentos en la lista desplegable Almacenar vectores en. Para almacenar los documentos con el proyecto, seleccione Plataforma de proyecto de datos.
- Si ha seleccionado Base de datos vectorial externa, cree o seleccione una conexión a la base de datos vectorial. Los documentos y los vectores se almacenarán en esta base de datos vectorial.
- Cree o seleccione una conexión LLM. Esta conexión es necesaria para utilizar la búsqueda semántica.
- Haga clic en Crear.
- Una vez creado el almacén de conocimiento, añada documentos.
Agregar archivos
- En la pestaña Carpetas de la página de tareas Datos, seleccione una carpeta o haga clic en Seleccionar carpetas para seleccionar una nueva.
- Navegue hasta la carpeta, seleccione la casilla de verificación de la carpeta.
Todos los archivos de las carpetas se leerán si están en uno de los formatos admitidos, independientemente de cuándo se hayan añadido a la carpeta.
Cuando elimina de una carpeta un archivo que ya existe en el índice, los datos siguen estando en el índice. Para eliminar los datos del índice, utilice el mismo archivo, pero vacío.
Para mostrar la lista de archivos de la carpeta, haga clic en ella con el botón derecho del ratón.
- Haga clic en Guardar para cerrar la ventana Seleccionar carpetas.
- Para editar el tamaño de los fragmentos, el solapamiento de los fragmentos, haga clic en Configuración > Tiempo de ejecución.
- Para editar el nombre del índice, haga clic en Configuración > Configuración de la base de datos vectorial.
Para más información, vea Nombre del índice.
- Haga clic en
a la derecha > Preparar.
- Una vez finalizada la preparación, haga clic en Ejecutar. Los documentos se están incrustando y transfiriendo.
La transferencia se completa cuando el botón Ejecutar está activo.
- Cuando sea la primera Carga completa, verifique el estado de cada archivo:
- Seleccione Monitor en el menú.
- Seleccione Estado de carga completa en la parte inferior de la página.
- Cuando fallen algunos archivos y antes de volver a ejecutarlo todo, corrija los errores o elimine los archivos. Si mantiene los archivos en error, las siguientes ejecuciones fallarán.
Nota informativaRecargar todos los archivos podría acarrear costes adicionales.
Cuando sus archivos sean correctos, podrá hacer preguntas sobre sus datos. Para más información, vea Uso del asistente de pruebas.
Carga completa y Captura de datos modificados (CDC)
Carga completa y CDC son compatibles.
Carga completa: Se genera un documento para cada instancia de documento y se enviará al destino.
CDC: Un documento se regenera tras cualquier cambio.
Cuando se modifica o añade un archivo, los documentos se leen de este archivo. El archivo se dividirá en documentos de trozos según el tamaño del trozo y el solapamiento.
Cuando sea la primera Carga completa, verifique el estado de cada archivo:
- Seleccione Monitor en el menú.
- Seleccione Estado de carga completa en la parte inferior de la página.
- Cuando fallen algunos archivos y antes de volver a ejecutarlo todo, corrija los errores o elimine los archivos. Si mantiene los archivos en error, las siguientes ejecuciones fallarán.
Actualización de los datos de entrada
Cuando actualice los datos de entrada, deberá ejecutar la tarea de datos para transferir los cambios a la base de datos de vectores o a la plataforma de datos.
Como se borran fragmentos antiguos y se insertan fragmentos nuevos, el campo hdr__operation
corresponde a una operación de inserción, no de actualización. Para obtener más información, consulte Arquitectura de conjuntos de datos en un almacén de datos en la nube
Nombre del índice
Cada almacén de conocimiento tiene un nombre de índice que se utiliza para la búsqueda semántica.
Cuando configure tareas para escribir en el mismo índice, deberá configurar los mismos parámetros de LLM para las tareas.
Si quiere que sus documentos estén en el mismo índice, deben tener el mismo nombre de índice.
Para editar el nombre del índice:
- En la página Tarea de datos, haga clic en Configuración.
- Seleccione la pestaña Configuración de la base de datos vectorial.
- Edite el nombre del índice.
- Haga clic en Aceptar.
Después de editar el nombre del índice, debe preparar la tarea. De lo contrario, sus cambios no se aplicarán en las siguientes ejecuciones.
Configuración
Puede ver y editar la configuración de un almacén de conocimiento.
En la página Tarea de datos, haga clic en > Configuración.
Configuración | Descripción |
Conexión de fuente | La conexión de fuente. |
Almacenar vectores en | En la lista desplegable, seleccione:
|
Conexión a la base de datos vectorial Este ajuste está disponible cuando se selecciona Base de datos vectorial externa para Almacenar vectores en. | La conexión a la base de datos vectorial. Para más información, vea Conexión a bases de datos vectoriales. |
Conexión a LLM | La conexión a LLM. Para más información, vea Conexión a las conexiones LLM. Si desea utilizar Databricks como conexión LLM, configure el punto de conexión de servicio del modelo de incrustación y el punto de conexión de servicio del modelo de finalización al crear el almacén de conocimiento. Para más información, consulte la documentación de Databricks. |
Configuración | Descripción |
Esquema de tarea de datos | Puede cambiar el nombre del esquema de la tarea de datos. |
Esquema interno | El nombre del esquema interno. |
Prefijo para todas las tablas y vistas | El prefijo para resolver conflictos entre varias tareas de datos. |
Configuración | Descripción |
Esquema de índice Este ajuste no está disponible cuando se selecciona Base de datos vectorial externa para Almacenar vectores en. | El nombre del esquema del índice. |
Nombre del índice | El nombre del índice. |
Si el índice ya existe | Cuando varias tareas escriben en el mismo índice, seleccione si el índice debe borrarse o no:
|
Configuración | Descripción |
Ejecución en paralelo | El número máximo de conexiones de base de datos. Introduzca un valor de 1 a 50. |
Tamaño en masa | Para los almacenes de conocimiento, el tamaño del lote es el número de documentos cargados en cada solicitud de lote. Para los almacenes de conocimiento basados en archivos, el tamaño del lote es el número de documentos cargados en cada solicitud de lote. En Snowflake, el tamaño del lote no es necesario, ya que todo se carga en una sola consulta. |
Número máximo de registros que cargar | 0 significa que se cargan todos los registros. |
Configuración | Descripción |
Vistas estándar | Utilice las vistas estándar para mostrar los resultados de una consulta como si se tratara de una tabla. |
Vistas seguras de Snowflake | Utilice las vistas seguras de Snowflake para aquellas vistas que precisen protección de la privacidad de datos o de la información sensible, como las vistas creadas para limitar el acceso a datos sensibles que no deban estar expuestos a todos los usuarios de las tablas. Las vistas seguras de Snowflake pueden ejecutarse más lentamente que las vistas Estándar. |
Configuración | Descripción |
Número de documentos en contexto | El número de documentos relevantes que se transferirán al modelo como contexto. |
Plantilla de solicitud | Introduzca la plantilla que debe seguir la IA para filtrar los documentos que deben incluirse. |
Filtrar | Introduzca la expresión para filtrar los documentos que deben incluirse. Como el filtro se basa en los metadatos y los almacenes de conocimiento basados en archivos no tienen metadatos, piense detenidamente en el filtro que está configurando. Podría ser más pertinente excluir los datos en lugar de incluirlos. Para más información, vea Uso del asistente de pruebas. |
Recuperación de documentos | Seleccione la opción en la lista desplegable:
|
Generación de respuestas | Seleccione la opción en la lista desplegable:
|