Création d'un mart de connaissances

Les marts de connaissances vous permettent d'intégrer et de stocker vos données structurées dans une base de données vectorielle. Cela permet de récupérer le contexte augmenté avec des fonctions de recherche sémantique afin de l'utiliser comme contexte pour les applications RAG (Retrieval Augmented Generation - Génération augmentée de récupération).

La sortie se présente au format JSON.

Vous avez besoin d'un abonnement Qlik Talend Cloud Enterprise.

Prérequis

Vous avez besoin d'un abonnement Qlik Talend Cloud Enterprise.
Supporté sur les plateformes Snowflake et Databricks. Snowflake Iceberg n'est pas supporté.
Une passerelle de données gérée par le client est obligatoire.

Databricks nécessite Passerelle de données Qlik - Déplacement des données version 2024.11.95 ou une version supérieure.

Installation de Passerelle de données Qlik - Déplacement des données

Avant de créer un mart de connaissances, vous devez installer un Passerelle de données Qlik - Déplacement des données spécifique. Pour plus d'informations, consultez Configuration de Passerelle de données Qlik - Déplacement des données pour les datamarts de connaissances.

Connexions supportées

Pour des informations sur les éléments suivants supportés :

Bases de données vectorielles, consultez Connexion à des bases de données vectorielles.
Connexions LLM, consultez Connexion à des connexions LLM.
Stockage de fichiers, consultez Connexion à un stockage de fichiers.

Création des données

Cliquez sur Projets de pipeline dans le menu gauche et ouvrez un projet.
À partir de la page Projet de pipeline, vous pouvez générer et publier des documents dans une base de données vectorielle. Vous pouvez :
- Cliquez sur Créer > Mart de connaissances.
- Cliquez sur de la tâche de données > Mart de connaissances.
La fenêtre de configuration s'ouvre.
Saisissez un nom.
Saisissez une description. Cet argument est facultatif.
Sélectionnez l'endroit où stocker les documents dans la liste déroulante Stocker les vecteurs dans. Pour stocker les documents avec le projet, sélectionnez Plateforme de projet de données.
Si vous avez sélectionné Base de données vectorielle externe, créez ou sélectionnez une Connexion de base de données vectorielle. Les documents et les vecteurs seront stockés dans cette base de données vectorielle.
Créez ou sélectionnez une connexion LLM. Cette connexion est nécessaire pour pouvoir utiliser la recherche sémantique.
Cliquez sur Créer.
Lorsque les données sont créées, ajoutez des documents.

Ajout de documents

Seul le format texte est supporté. Par exemple, il n'est pas possible d'extraire du texte de diagrammes ou d'images.

Dans l'onglet Jeux de données de la page Tâche de données, cliquez sur Ajouter dans le panneau gauche.
Sélectionnez le jeu de données de base à partir duquel le document sera généré. Un document sera créé pour chaque enregistrement. Par exemple, pour une liste de patients, un document sera créé pour chaque patient.
Le champ Nom du schéma du document est pré-renseigné du nom du jeu de données de base sélectionné. Renommez-le si nécessaire.
Saisissez une description. Cet argument est facultatif.
Sélectionnez les données à inclure pour enrichir le document.
Cliquez sur OK. Vous revenez à l'onglet Schémas de documents.
Sélectionnez l'onglet Jeux de données.
Dans le panneau gauche, sélectionnez le jeu de données que vous avez précédemment sélectionné comme jeu de données de base.
Pour supprimer les données que vous ne souhaitez pas inclure dans les documents, cochez la case et cliquez sur Supprimer.
Sélectionnez Métadonnées pour tous les champs que vous souhaitez définir comme des métadonnées. Vous pouvez filtrer en fonction des métadonnées avant d'envoyer les données au LLM.

Note InformationsSur Databricks, les métadonnées sont mises en œuvre par un seul champ contenant une représentation JSON de la clé et des valeurs des champs de métadonnées sélectionnés.
Pour améliorer la recherche sémantique effectuée par le LLM, renommez les données dont les noms ne sont pas assez clairs.
Exemple : remplacez le nom dt par date.
Lorsque vous avez supprimé et renommé les données selon les besoins, cliquez sur à droite > Préparer. Les documents sont générés au format JSON.
Lorsque les documents sont générés :
1. Sélectionnez l'onglet Jeux de données.
2. Pour vérifier vos documents avant d'exécuter la tâche, cliquez sur Afficher les données pour afficher un échantillon de données.
3. Cliquez sur Run. Les documents sont transférés à la base de données vectorielle ou à la plateforme de données, selon la configuration.

Le transfert est terminé lorsque le bouton Exécuter est actif.

Pour vous assurer que tout a été transféré, vous pouvez poser des questions sur vos données. Pour plus d'informations, consultez Utilisation de l'assistant de test.

Chargement complet et Change Data Capture (CDC)

Les opérations Chargement complet et CDC sont supportées.

Chargement complet : un document est généré pour chaque instance de document et sera envoyé à la cible.

CDC : un document est régénéré après toute modification de l'entité de base ou associée.

Un nouveau document est créé lorsqu'une entrée est ajoutée à l'entité de base. Si aucune entrée des entités associées ne peut être connectée à une entité de base, elles n'apparaîtront pas dans les documents.

Mise à jour des données d'entrée

Lorsque vous mettez à jour les données d'entrée, vous devez exécuter la tâche de données pour transférer les modifications à la base de données vectorielle ou à la plateforme de données.

Nom d'index

Chaque mart de connaissances a un nom d'index qui est utilisé pour la recherche sémantique.

Lorsque vous configurez des tâches pour écrire dans le même index, vous devez configurer les mêmes paramètres LLM pour les tâches.

Si vous voulez que vos documents figurent dans le même index, ils doivent avoir le même nom d'index.

Pour modifier le nom d'index :

Sur la page Tâche de données, cliquez sur Paramètres.
Sélectionnez l'onglet Paramètres de base de données vectorielle.
Modifiez le Nom d'index.
Cliquez sur OK.

Configuration

Vous pouvez consulter et modifier les paramètres d'un mart de connaissances.

À partir de la page Tâche de données, cliquez sur > Paramètres.

Comme les paramètres dépendent du stockage (Databricks, Snowflake, etc.), les tableaux suivants décrivent les paramètres qui sont toujours disponibles. D'autres paramètres peuvent être disponibles.

Ce tableau décrit les paramètres de l'onglet Connexions.
Configuration	Description
Connexion source	Connexion source.
Stocker les vecteurs dans	Dans la liste déroulante, sélectionnez : Base de données vectorielle externe Plateforme de projet de données
Connexion de base de données vectorielle Ce paramètre est disponible lorsque l'option Base de données vectorielle externe est sélectionnée pour Stocker les vecteurs dans.	Connexion de base de données vectorielle. Pour plus d'informations, consultez Connexion à des bases de données vectorielles.
Connexion LLM	Connexion LLM. Pour plus d'informations, consultez Connexion à des connexions LLM. Lorsque vous souhaitez utiliser Databricks comme connexion LLM, configurez Embedding model serving endpoint (Point de terminaison de mise en service de modèle d'intégration) et Completion model serving endpoint (Point de terminaison de mise en service de modèle d'achèvement) lors de la création du mart de connaissances. Pour plus d'informations, consultez la documentation Databricks.

Ce tableau décrit les paramètres de l'onglet Paramètres de la plateforme.
Configuration	Description
Schéma de tâche de données	Nom du schéma de la tâche de données.
Schéma interne	Nom du schéma interne.
Préfixe de l'ensemble des tables et des vues	Préfixe pour résoudre les conflits entre plusieurs tâches de données.

Ce tableau décrit les paramètres de l'onglet Paramètres de base de données vectorielle.
Configuration	Description
Schéma d'index Ce paramètre n'est pas disponible lorsque l'option Base de données vectorielle externe est sélectionnée pour Stocker les vecteurs dans.	Nom du schéma d'index.
Index name	Nom de l'index.
Si l'index existe déjà	Lorsque plusieurs tâches écrivent dans le même index, indiquez si l'index doit être supprimé ou non : Utilisez l'index existant : l'index n'est pas supprimé. Supprimer et créer l'index : l'index est supprimé.
Point de terminaison de recherche vectorielle Databricks	Nom du point de terminaison de recherche vectorielle créé dans Databricks. Pour plus d'informations, consultez Configuration de Databricks pour les marts de connaissances . Note InformationsApplicable uniquement aux projets utilisant Databricks comme plateforme de données.

Ce tableau décrit les paramètres de l'onglet Temps d'exécution.
Configuration	Description
Exécution parallèle	Nombre maximal de connexions de bases de données. Saisissez une valeur comprise entre 1 et 50.
Taille en gros	Pour les marts de connaissances, la taille en gros est le nombre de documents chargés dans chaque demande en gros. Pour les marts de connaissances basés fichiers, la taille en gros est le nombre de fichiers chargés dans chaque demande en gros. Dans Snowflake et Databricks, la taille en gros n'est pas nécessaire, car tout est chargé en une seule requête.
Nombre maximal d'enregistrements à charger	0 signifie que tous les enregistrements sont chargés.

Ce tableau décrit les paramètres de l'onglet Vues pour Snowflake.
Configuration	Description
Vues standards	Utilisez des vues standards pour afficher les résultats d'une requête comme s'il s'agissait d'un tableau.
Vues sécurisées Snowflake	Utilisez Vues sécurisées Snowflake pour les vues désignées pour la confidentialité des données ou la protection des informations sensibles telles que les vues créées pour limiter l'accès aux données sensibles qui ne doivent pas être exposées à tous les utilisateurs des tables sous-jacentes. L'exécution de Vues sécurisées Snowflake peut être plus lente que celle de Vues standards.

Ce tableau décrit les paramètres de l'onglet Assistant de test.
Configuration	Description
Nombre de documents dans le contexte	Nombre de documents pertinents qui seront transmis au modèle comme contexte.
Modèle d'invite	Saisissez le modèle que l'IA doit suivre pour filtrer les documents à inclure.
Filter	Saisissez l'expression pour filtrer les documents à inclure. Comme le filtre est basé sur les métadonnées et que les marts de connaissances basés fichiers n'ont pas de métadonnées, réfléchissez bien au filtre que vous configurez. Il serait peut-être plus pertinent d'exclure des données au lieu de les inclure. Pour plus d'informations, consultez Utilisation de l'assistant de test.
Récupération de document	Sélectionnez l'option dans la liste déroulante : Afficher le contexte récupéré : l'assistant de test fournit les documents à partir desquels il génère la réponse. Ne pas afficher le contexte récupéré : l'assistant de test génère une réponse, mais ne fournit pas les documents.
Génération de réponses	Sélectionnez l'option dans la liste déroulante : Générer des réponses : l'assistant de test génère une réponse en fonction des documents. Ne pas générer de réponses : l'assistant de test répond uniquement à l'aide de documents.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici