Accéder au contenu principal Passer au contenu complémentaire

Création d'un datamart de connaissances basé fichiers

Les datamarts de connaissances basés fichiers vous permettent d'intégrer et de stocker vos données non structurées dans une base de données vectorielle. Cela permet de récupérer le contexte augmenté avec des fonctions de recherche sémantique afin de l'utiliser comme contexte pour les applications RAG (Retrieval Augmented Generation - Génération augmentée de récupération).

Les formats d'entrée supportés sont les suivants : PDF, TXT et Word DOCX.

Note InformationsVous avez besoin d'un abonnement Qlik Talend Cloud Enterprise.
Note InformationsCette fonction n'est supportée que sur les plateformes Snowflake et pour une passerelle de données gérée par le client.

Installation de Qlik Data Gateway - Data Movement

Avant de créer des datamarts de connaissances basés fichiers, vous devez installer un Qlik Data Gateway - Data Movement spécifique. Pour plus d'informations, consultez Configuration de Qlik Data Gateway - Data Movement pour les datamarts de connaissances.

Connexions supportées

Pour des informations sur les éléments suivants supportés :

Création des fichiers

  1. Cliquez sur Projets dans le menu gauche et ouvrez un projet.
  2. À partir de la page Projet, vous pouvez créer un datamart de connaissances basé fichiers. Vous pouvez effectuer l'une des opérations suivantes :
    • Cliquez sur Créer > Datamart de connaissances basé fichiers.
    • Cliquez sur Icône Actions de la tâche de données > Datamart de connaissances basé fichiers.

    La fenêtre de configuration s'ouvre.

  3. Saisissez un nom.
  4. Saisissez une description. Cet argument est facultatif.
  5. Créez ou sélectionnez une connexion source.
  6. Sélectionnez l'endroit où stocker les documents dans la liste déroulante Stocker les vecteurs dans. Pour stocker les documents avec le projet, sélectionnez Plateforme de projet de données.

  7. Si vous avez sélectionné Base de données vectorielle externe, créez ou sélectionnez une Connexion de base de données vectorielle. Les documents et les vecteurs seront stockés dans cette base de données vectorielle.
  8. Créez ou sélectionnez une connexion LLM. Cette connexion est nécessaire pour pouvoir utiliser la recherche sémantique.
  9. Cliquez sur Créer.
  10. Lorsque le datamart de connaissances est créé, ajoutez des documents.

Ajout de fichiers

Note InformationsSeul le texte est écrit dans les documents. Le texte des diagrammes ou des images n'est pas extrait.
  1. Dans l'onglet Dossiers de la page de la Tâche de données, sélectionnez un dossier ou cliquez sur Sélectionner des dossiers pour en sélectionner un nouveau.
  2. Accédez au dossier et cochez la case correspondante.

    Tous les fichiers des dossiers seront lus s'ils se présentent dans l'un des formats supportés, quel que soit le moment où ils sont ajoutés au dossier.

    Lorsque vous supprimez d'un dossier un fichier qui existe déjà dans l'index, les données restent dans l'index. Pour supprimer les données de l'index, utilisez le même fichier, mais vide.

    Pour afficher la liste de fichiers contenus dans le dossier, faites un clic droit dessus.

  3. Cliquez sur Enregistrer pour fermer la fenêtre Sélectionner des dossiers.
  4. Pour modifier la taille de bloc, le chevauchement de blocs, cliquez sur Paramètres > Temps d'exécution.
  5. Pour modifier le nom d'index, cliquez sur Paramètres > Paramètres de base de données vectorielle.

    Pour plus d'informations, consultez Nom d'index.

  6. Cliquez sur Icône Actions à droite > Préparer.
  7. Lorsque la préparation est terminée, cliquez sur Exécuter. Les documents sont intégrés et transférés.

    Le transfert est terminé lorsque le bouton Exécuter est actif.

  8. Lors du premier chargement complet, vérifiez l'état de chaque fichier :
    1. Sélectionnez Surveiller dans le menu.
    2. Sélectionnez État de chargement complet en bas de la page.

      État de chargement complet dans Surveiller

    3. Lorsque certains fichiers ont échoué et avant de tout réexécuter, corrigez les erreurs ou supprimez les fichiers. Si vous conservez les fichiers en état d'erreur, les exécutions suivantes échoueront.
    Note InformationsLe nouveau chargement de tous les fichiers peut entraîner des coûts supplémentaires.

Lorsque vos fichiers sont corrects, vous pouvez poser des questions sur vos données. Pour plus d'informations, consultez Utilisation de l'assistant de test.

Chargement complet et Change Data Capture (CDC)

Les opérations Chargement complet et CDC sont supportées.

Chargement complet : un document est généré pour chaque instance de document et sera envoyé à la cible.

CDC : un document est régénéré après toute modification.

Lorsqu'un fichier est modifié ou ajouté, les documents sont lus à partir de ce fichier. Le fichier sera divisé en documents de blocs en fonction de la taille et du chevauchement des blocs.

Lors du premier chargement complet, vérifiez l'état de chaque fichier :

  1. Sélectionnez Surveiller dans le menu.
  2. Sélectionnez État de chargement complet en bas de la page.

    État de chargement complet dans Surveiller

  3. Lorsque certains fichiers ont échoué et avant de tout réexécuter, corrigez les erreurs ou supprimez les fichiers. Si vous conservez les fichiers en état d'erreur, les exécutions suivantes échoueront.
Note InformationsLe nouveau chargement de tous les fichiers peut entraîner des coûts supplémentaires.

Mise à jour des données d'entrée

Lorsque vous mettez à jour les données d'entrée, vous devez exécuter la tâche de données pour transférer les modifications à la base de données vectorielle ou à la plateforme de données.

Étant donné que les anciens blocs sont supprimés et que de nouveaux morceaux sont insérés, le champ hdr__operation correspond à une opération d'insertion et non à une opération de mise à jour. Pour plus d'informations, consultez Architecture du jeu de données dans un entrepôt de données cloud.

Nom d'index

Chaque datamart de connaissances a un nom d'index qui est utilisé pour la recherche sémantique.

Lorsque vous configurez des tâches pour écrire dans le même index, vous devez configurer les mêmes paramètres LLM pour les tâches.

Si vous voulez que vos documents figurent dans le même index, ils doivent avoir le même nom d'index.

Pour modifier le nom d'index :

  1. Sur la page Tâche de données, cliquez sur Paramètres.
  2. Sélectionnez l'onglet Paramètres de base de données vectorielle.
  3. Modifiez le Nom d'index.
  4. Cliquez sur OK.

Après avoir modifié le nom d'index, vous devez préparer la tâche. Sinon, vos modifications ne s'appliqueront pas lors des exécutions suivantes.

Paramètres

Vous pouvez consulter et modifier les paramètres d'un datamart de connaissances.

À partir de la page Tâche de données, cliquez  > Paramètres.

Note InformationsComme les paramètres dépendent du stockage (Databricks, Snowflake, etc.), les tableaux suivants décrivent les paramètres qui sont toujours disponibles. D'autres paramètres peuvent être disponibles.
Ce tableau décrit les paramètres de l'onglet Connexions.
ParamètresDescription
Connexion source

Connexion source.

Stocker les vecteurs dans

Dans la liste déroulante, sélectionnez :

  • Base de données vectorielle externe
  • Plateforme de projet de données
Connexion de base de données vectorielle

Ce paramètre est disponible lorsque Base de données vectorielle externe est sélectionné pour Stocker les vecteurs dans.

Connexion de base de données vectorielle.

Pour plus d'informations, consultez Connexion à des bases de données vectorielles.

Connexion LLMConnexion LLM.

Pour plus d'informations, consultez Connexion à des connexions LLM.

Lorsque vous souhaitez utiliser Databricks comme connexion LLM, configurez Embedding model serving endpoint (Point de terminaison de mise en service de modèle d'intégration) et Completion model serving endpoint (Point de terminaison de mise en service de modèle d'achèvement) lors de la création du datamart de connaissances. Pour plus d'informations, consultez la documentation Databricks.

Ce tableau décrit les paramètres de l'onglet Paramètres de la plateforme.
ParamètresDescription
Schéma de tâche de donnéesNom du schéma de la tâche de données.
Schéma interneNom du schéma interne.
Préfixe de l'ensemble des tables et des vuesPréfixe pour résoudre les conflits entre plusieurs tâches de données.
Ce tableau décrit les paramètres de l'onglet Paramètres de base de données vectorielle.
ParamètresDescription
Schéma d'index

Ce paramètre n'est pas disponible lorsque Base de données vectorielle externe est sélectionné pour Stocker les vecteurs dans.

Nom du schéma d'index.
Index nameNom de l'index.
Si l'index existe déjàLorsque plusieurs tâches écrivent dans le même index, indiquez si l'index doit être supprimé ou non :
  • Utilisez l'index existant : l'index n'est pas supprimé.
  • Supprimer et créer l'index : l'index est supprimé.
Ce tableau décrit les paramètres de l'onglet Temps d'exécution.
ParamètresDescription
Exécution parallèle

Nombre maximal de connexions de base de données. 

Saisissez une valeur comprise entre 1 et 50.

Taille en grosPour les datamarts de connaissances, la taille en gros est le nombre de documents chargés dans chaque demande en gros.

Pour les datamarts de connaissances basés fichiers, la taille en gros est le nombre de fichiers chargés dans chaque demande en gros.

Sur Snowflake, la taille en gros n'est pas nécessaire, car tout est chargé en une seule requête.

Nombre maximal d'enregistrements à charger0 signifie que tous les enregistrements sont chargés.
Ce tableau décrit les paramètres de l'onglet Vues.
Paramètres Description
Vues standards Utilisez des vues standards pour afficher les résultats d'une requête comme s'il s'agissait d'un tableau.
Vues sécurisées Snowflake Utilisez Vues sécurisées Snowflake pour les vues désignées pour la confidentialité des données ou la protection des informations sensibles telles que les vues créées pour limiter l'accès aux données sensibles qui ne doivent pas être exposées à tous les utilisateurs des tables sous-jacentes.

L'exécution de Vues sécurisées Snowflake peut être plus lente que celle de Vues standards.

Ce tableau décrit les paramètres de l'onglet Assistant de test.
ParamètresDescription
Nombre de documents dans le contexteNombre de documents pertinents qui seront transmis au modèle comme contexte.
Modèle d'inviteSaisissez le modèle que l'IA doit suivre pour filtrer les documents à inclure.
FilterSaisissez l'expression pour filtrer les documents à inclure.

Comme le filtre est basé sur les métadonnées et que les datamarts de connaissances basés fichiers n'ont pas de métadonnées, réfléchissez bien au filtre que vous configurez. Il serait peut-être plus pertinent d'exclure des données au lieu de les inclure.

Pour plus d'informations, consultez Utilisation de l'assistant de test.

Récupération de documentSélectionnez l'option dans la liste déroulante :
  • Afficher le contexte récupéré : l'assistant de test fournit les documents à partir desquels il génère la réponse.
  • Ne pas afficher le contexte récupéré : l'assistant de test génère une réponse, mais ne fournit pas les documents.
Génération de réponsesSélectionnez l'option dans la liste déroulante :
  • Générer des réponses : l'assistant de test génère une réponse en fonction des documents.
  • Ne pas générer de réponses : l'assistant de test répond uniquement à l'aide de documents.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.