Création de marts de connaissances
La création de marts de connaissances vous permet d'intégrer et de stocker vos données structurées et non structurées dans une base de données vectorielle. Cela permet de récupérer le contexte augmenté avec des fonctions de recherche sémantique afin de l'utiliser comme contexte pour les applications RAG (Retrieval Augmented Generation - Génération augmentée de récupération).
RAG optimise la sortie LLM en fournissant un contexte supplémentaire au LLM avec la requête.
Prérequis
-
Vous avez besoin d'un abonnement Qlik Talend Cloud Enterprise.
-
Supporté sur les plateformes Snowflake et Databricks. Snowflake Iceberg n'est pas supporté.
-
Une passerelle de données gérée par le client est obligatoire.
Databricks nécessite Passerelle de données Qlik - Déplacement des données version 2024.11.95 ou une version supérieure.
Installation de Passerelle de données Qlik - Déplacement des données
Pour utiliser des marts de connaissances, vous devez vous connecter à des bases de données vectorielles et à des connexions LLM, ce qui nécessite l'installation d'un Passerelle de données Qlik - Déplacement des données spécifique. Pour plus d'informations, consultez Configuration de Passerelle de données Qlik - Déplacement des données pour les datamarts de connaissances.
Affichage et téléchargement des journaux
Vous pouvez afficher et télécharger les journaux des marts de connaissances. Pour plus d'informations, consultez Dépannage Passerelle de déplacement des données.
Prérequis
Vous pouvez utiliser des tâches de données des types suivants comme source pour un mart de connaissances :
-
Stockage
-
Transformation
Avant de pouvoir créer un mart de connaissances, vous devez effectuer les opérations suivantes dans les tâches de données sources :
- Renseignez les jeux de données à l'aide des données à utiliser dans votre mart de connaissances. Pour plus d'informations, consultez Intégration de données à un entrepôt de données.
-
Créez un modèle relationnel de jeu de données pour définir les relations entre les jeux de données sources. Pour plus d'informations, consultez Création d'un modèle de données.
Note AvertissementTous les jeux de données sources doivent avoir des clés.
Configuration de Databricks pour les marts de connaissances
Si vous utilisez Databricks comme plateforme de données, vous devez effectuer une certaine configuration dans Databricks pour pouvoir créer des marts de connaissances.
-
Créez un entrepôt SQL dans Databricks. Il est recommandé d'utiliser Calcul sans serveur.
Vous devez également configurer Sécurité des données pour Entrepôts SQL et Calcul sans serveur afin d'activer l'intégration de stockage.
-
Créez un point de terminaison dans Recherche vectorielle. Vous faites référence au nom de ce point de terminaison dans Paramètres de la base de données vectorielle dans la tâche Mart de connaissances.
Sélectionnez le Type en fonction de vos exigences de performances ; Standard convient à la plupart des cas d'utilisation.
Si nécessaire, définissez une Politique d'utilisation sans serveur pour associer des balises pour l'attribution de coûts.
-
Configurez les modèles Databricks dans Serving (Mise en service).
Sous Serving Endpoints (Points de terminaison de mise en service), vous pouvez utiliser les LLM Embeddings (Intégrations LLM) et les Chat Models (Modèles de chat) disponibles dans Databricks. Assurez-vous de vérifier les modèles que vous prévoyez d'utiliser dans votre pipeline de données.
Vous pouvez également créer un Serving Endpoint (Point de terminaison de mise en service) pour un modèle personnalisé, ou utiliser un Foundation Model (Modèle de fondation), par exemple, OpenAI ou Azure OpenAI.
Modèle d'intégration : databricks-gte-large-en
Modèle de chat/complétion : databricks-meta-llama-3-1-405b-instruct
Limitations
Il existe des limitations lorsque vous utilisez des jeux de données sources remplissant l'ensemble de ces conditions :
-
Créé par une transformation SQL ou un flux de transformation
-
Non matérialisé
-
Data store historique (Type 2) désactivé
Ces jeux de données sont considérés comme mis à jour à chaque exécution, ce qui peut affecter l'efficacité et le coût. Vous pouvez atténuer ce problème en :
-
modifiant les jeux de données sources à matérialiser ;
-
utilisant des transformations de jeux de données explicites ;
-
créant des règles globales qui transforment plusieurs jeux de données.
Format d'encodage supporté
Vos fichiers doivent être correctement encodés au format UTF-8. D'autres formats peuvent être mal interprétés.
Caractères supportés
Les noms de fichier et de dossier peuvent contenir les caractères suivants :
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
D'autres caractères spéciaux peuvent être supportés, mais, en raison de l'importance du traitement des caractères spéciaux, il est recommandé de n'utiliser que les caractères de la liste ci-dessus.
Relations
-
Il n'est pas possible de lier des données provenant de deux jeux de données. Créez une tâche de transformation dans laquelle vous définissez la relation dans le modèle de données et utilisez la tâche de transformation comme source de la tâche.
-
Lorsque deux jeux de données sont liés dans le modèle de données, les deux jeux de données seront disponibles dans la tâche, même si vous n'avez sélectionné qu'un seul des jeux de données.
Modification des connexions ou de la passerelle de données
Si vous modifiez la connexion vectorielle ou la passerelle de données vectorielle, vous devez préparer de nouveau la tâche.
Dépannage
Les fichiers déplacés vers OneDrive ne sont pas reconnus par le mart de connaissances File
Si les fichiers sont déplacés vers ou synchronisés dans OneDrive à l'aide d'options qui préservent les anciennes dates de création et de modification du fichier, le fichier n'est pas reconnu comme un nouveau fichier.
Remplacez la date de modification du fichier par la date actuelle.
Erreur d'exécution lors de l'utilisation de Pinecone
Les valeurs NULL des colonnes de métadonnées ne sont pas supportées par Pinecone. Cela entraînait une erreur d'exécution.
-
Transformez les valeurs NULL en d'autres valeurs, par exemple une chaîne vide ou le terme NULL, dans une transformation précédant le mart de connaissances.
-
Utilisez une autre base de données vectorielle.
-
N'utilisez pas la colonne comme métadonnées.