Création et gestion de mini-data warehouses
Une fois que vous avez intégré vos données, vous pouvez alors créer des mini-data warehouses à l'aide des données provenant des tâches Stockage ou Transformation. Vous pouvez créer autant de mini-data warehouses que nécessaire. Dans l'absolu, ils doivent contenir des référentiels de données synthétiques collectés à des fins d'analyse dans une section ou une unité spécifique de votre organisation, telle que le service commercial.
La procédure de création d'un mini-data warehouse est identique, que votre mini-data warehouse dépende d'une tâche Stockage ou d'une tâche Transformation. Les instructions disponibles dans cette section supposent que le mini-data warehouse dépend d'une tâche Stockage.
Conditions préalables requises
Avant de créer un mini-data warehouse, vous devez effectuer les opérations suivantes :
- Remplissez le stockage avec les données (provenant du dépôt temporaire) que vous voulez utiliser dans votre mini-data warehouse. Pour plus d'informations, consultez Intégration de données.
-
Créez un modèle relationnel de jeu de données pour définir les relations entre les jeux de données sources. Pour plus d'informations, consultez Création d'un modèle de données.
Note AvertissementTous les jeux de données source doivent avoir des clés.
Création d'un mini-data warehouse
Pour créer un mini-data warehouse :
-
Ouvrez votre projet.
-
Procédez de l'une des manières suivantes :
- Cliquez sur Ajouter nouveau dans le coin supérieur droit et sélectionnez Créer un mini-data warehouse.
-
Dans la tâche de données de stockage, cliquez sur dans le coin inférieur droit, puis sélectionnez Créer un mini-data warehouse.
Vous accédez à la boîte de dialogue Créer un mini-data warehouse.
-
Saisissez un nom pour votre mini-data warehouse et, éventuellement, une description.
-
Si vous voulez configurer le mini-data warehouse ultérieurement, décochez la case Ouvrir puis cliquez sur Créer. Vous également cliquer simplement sur Créer.
Le mini-data warehouse s'ouvre dans l'onglet Mini-data warehouse.
- Sélectionnez vos données source comme indiqué dans Sélection de vos données source.
- Si vous voulez que le mini-data warehouse contienne des dimensions, ajoutez-en comme indiqué dans Ajout de dimensions et d'un fait au mini-data warehouse.
- Si vous voulez que le mini-data warehouse contienne un fait, ajoutez-en un comme indiqué dans Ajout d'un fait.
- Si le mini-data warehouse contient des dimensions et un fait, ajoutez les dimensions à votre schéma en étoile comme indiqué dans Création d'un schéma en étoile.
- Créez les jeux de données dans votre mini-data warehouse et remplissez-les avec des données comme indiqué dans Remplissage de votre mini-data warehouse.
Sélection de vos données source
Vous sélectionnez vos données source dans les jeux de données contenus dans la tâche de données Stockage.
Pour effectuer cette action :
-
Cliquez sur le bouton Sélectionner des données source au centre de l'onglet ou cliquez sur le bouton de barre d'outils Sélectionner des données source.
Vous accédez à la boîte de dialogue Sélectionner des données source.
-
Dans la liste déroulante Ressources de données, sélectionnez une tâche Stockage, ou une tâche Transformation si vous avez créé des transformations.
-
Laissez le % par défaut pour rechercher tous les jeux de données ou saisissez le nom d'un jeu de données précis à rechercher. Cliquez ensuite sur Rechercher.
-
Sélectionnez les jeux de données souhaités puis cliquez sur Ajouter les tables sélectionnées.
-
Cliquez sur OK pour fermer la boîte de dialogue et passez ensuite à Ajouter un fait et/ou Ajouter des dimensions.
Ajout de dimensions et d'un fait au mini-data warehouse
Lorsque vous avez sélectionné vos données source, vous pouvez ensuite poursuivre la création de votre mini-data warehouse. Un mini-data warehouse peut contenir un jeu de données de fait, des jeux de données de dimensions ou une combinaison des deux (lorsque les jeux de données de la dimension ont un lien logique au jeu de données du fait).
Ajout de dimensions
Pour ajouter une dimension :
-
Cliquez sur le bouton Ajouter une dimension.
Vous accédez à la boîte de dialogue Ajouter une dimension.
-
Les paramètres suivants sont disponibles :
- Jeu de données le plus granulaire : sélectionnez un jeu de données.
- Nom : saisissez un nom d'affichage pour la dimension. Le nom du jeu de données le plus granulaire est attribué par défaut.
- Description : vous pouvez éventuellement saisir une description.
- Type d'historique : Sélectionnez une des options suivantes :
- Type 1 : l'enregistrement existant dans la dimension sera mis à jour chaque fois que l'enregistrement correspondant dans le stockage est mis à jour.
- Type 2 : un nouvel enregistrement sera ajouté à la dimension chaque fois que l'enregistrement correspondant dans le stockage est mis à jour.
-
Jeu de données associé à dénormaliser : Tout jeu de données pouvant être dénormalisé dans le jeu de données de la dimension (en fonction des relations dans le modèle de ressource de données source) peut être sélectionné ici.
-
Cliquez sur OK pour enregistrer vos paramètres.
La dimension est ajoutée à la liste Dimensions sur la gauche.
Voir aussi Dimensions de jeu de rôles (dimensions réutilisables).
Affichage des informations sur une dimension
Lorsque vous sélectionnez une dimension, l'onglet Modèle relationnel source apparaît dans le volet central. Cet onglet affiche les jeux de données source consolidés dans la dimension. Les jeux de données que vous avez choisis de dénormaliser lors de l'ajout de la dimension apparaissent comme sélectionnés (et grisés).
Ajout d'un fait
Pour ajouter un fait :
-
Cliquez sur le bouton Ajouter fait.
La boîte de dialogue Ajouter fait s'ouvre.
-
Les paramètres suivants sont disponibles :
- Fait : Sélectionnez un jeu de données pour le fait. Le jeu de données doit définir la granularité du fait que vous créez.
- Nom : saisissez un nom d'affichage pour le fait. Le nom du fait est attribué par défaut.
- Description : vous pouvez éventuellement saisir une description.
- Jeux de données associés à dénormaliser : Tout jeu de données pouvant être dénormalisé dans votre jeu de données de fait peut être sélectionné ici.
- Avancé
- Utiliser les données actives : si cette option est sélectionnée (par défaut), le fait ne contiendra pas de colonne de date de transaction.
-
Sélectionner la date de transaction : pour localiser les données en fonction d'une date de transaction spécifique, sélectionnez cette option, puis une colonne de dates. Cela s'avère utile si votre schéma en étoile contient des dimensions de type 2 et si vous devez trouver les données correctes d'une transaction spécifique. Par exemple, si un client comporte plusieurs adresses, il peut être possible de trouver l'adresse correcte en fonction de la date de commande.
Exemple de scénario :
Un détaillant doit créer un mini-data warehouse pour analyser les relations entre les commandes et les clients. Le mini-data warehouse doit être en mesure de répondre à des requêtes telles que : Which US state had the highest sum of orders in Q4 2022? (Quel état américain a enregistré la plus grande somme de commandes au 4e trimestre 2022 ?).
Si le détaillant sélectionne l'option Utiliser les données actives, seule la version la plus récente des enregistrements de la table Clients sera incluse dans le calcul.
Le fait d'ignorer la date de transaction produira des données inexactes, comme illustré ci-dessous :
En revanche, si le détaillant sélectionne l'option Sélectionner la date de transaction, les commandes du client seront associées à la version correcte des enregistrements de la table Clients.
Cela permettra au détaillant de calculer avec précision la somme totale des commandes par état au T4 2022.
Note ConseilNotez que la date de transaction peut être utilisée différemment dans chaque mini-data warehouse, suivant les besoins commerciaux. Par exemple, dans un mini-data warehouse, elle peut permettre d'analyser les dates de commande, tandis que, dans un autre, elle peut permettre d'analyser les dates d'expédition.
-
Cliquez sur OK pour enregistrer vos paramètres.
Le fait est ajouté à la liste Faits sur la gauche.
Affichage des informations sur le fait
Lorsque vous sélectionnez un fait, les onglets suivants s'affichent dans le volet central :
- Modèle de schéma en étoile (par défaut) : affiche une représentation graphique des relations du jeu de données dans le mini-data warehouse.
-
Modèle de faits : affiche les jeux de données associés au jeu de données de fait. Les jeux de données que vous avez choisis de dénormaliser lors de l'ajout du fait apparaissent comme sélectionnés (et grisés).
- Date de transaction : nom de la colonne de transaction si vous avez sélectionné l'option Sélectionner la date de transaction lors de l'ajout du fait.
Création d'un schéma en étoile
Lorsque vous avez ajouté des dimensions à votre mini-data warehouse, vous pouvez alors poursuivre leur connexion à votre jeu de données de fait, et créer ainsi un schéma en étoile.
Pour effectuer cette action :
- Sélectionnez votre fait dans la liste Faits sur la gauche.
-
Sélectionnez les dimensions à ajouter depuis la liste Dimensions recommandées à droite.
Les dimensions recommandées sont présentées comme connectées au jeu de données de fait au moyen d'une ligne en pointillé.
Sur l'image ci-dessous, certaines des dimensions ont été ajoutées précédemment et sont par conséquent reliées via une ligne grise continue.
-
Cliquez sur Appliquer pour ajouter les dimensions.
Les dimensions seront présentées comme reliées au jeu de données de faits au moyen d'une ligne grise continue.
-
Pour fermer le panneau Dimensions recommandées, cliquez sur .
Remplissage de votre mini-data warehouse
Lorsque vous avez conçu votre mini-data warehouse, vous pouvez ensuite le remplir.
Pour effectuer cette action :
-
Cliquez sur le bouton de barre d'outils Préparer en haut à droite.
Le processus de préparation comprend la création des jeux de données et des vues dans le mini-data warehouse ainsi que la mise à jour du catalogue.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
À la fin de la préparation, le bouton Préparer devient Exécuter.
-
Vous avez la possibilité de valider le mini-data warehouse comme décrit à la section Validation et synchronisation du mini-data warehouse ci-dessous.
-
Cliquez sur le bouton Exécuter.
La fenêtre passe en vue Surveiller, affichant ainsi l'avancement du chargement et l'état des jeux de données dans votre mini-data warehouse.
Le mini-data warehouse traite tous les enregistrements source, même ceux supprimés. Ce traitement exhaustif permet de garantir la conservation des informations historiques.
Validation et synchronisation du mini-data warehouse
La validation du mini-data warehouse garantit que les métadonnées de ce dernier sont identiques aux métadonnées correspondantes dans le Stockage (ou la Transformation, si définie). La validation du mini-data warehouse compare également les métadonnées créées à la conception de schéma en étoile existante. Par exemple, si vous exécutez la validation après avoir ajouté une dimension à un mini-data warehouse existant, la validation échouera.
Pour valider le mini-data warehouse :
-
Sélectionnez Valider les jeux de données dans le menu à droite du bouton Exécuter ou cliquez sur le bouton Valider les jeux de données dans le coin inférieur droit de la fenêtre.
Un message La validation est terminée apparaîtra.
-
Si les métadonnées ne sont pas synchronisées ou s'il existe des conflits de conception de schéma en étoile, le volet Valider et ajuster au bas de la fenêtre s'ouvrira automatiquement avec le rapport de validation.
Exemple d'un mini-data warehouse avec un conflit de conception de schéma en étoile : Exemple d'un mini-data warehouse avec des erreurs de validation :
-
Pour résoudre tout problème de type Modification de conception en attente, cliquez sur le bouton dans le coin supérieur droit et sélectionnez Préparer. Si la valeur de la colonne Peut être altéré sans perte de données est Oui, une opération ALTER sera effectuée. Sinon, les tables du mini-data warehouse seront recréées.
Notez que l'ensemble des Erreurs de validation doivent être résolues manuellement.
Gestion des mini-data warehouses
La présente section décrit les différentes options disponibles pour la gestion de vos jeux de données et des mini-data warehouses.
Affinage des faits ou des dimensions
L'onglet Jeux de données vous permet d'exécuter diverses opérations pour affiner vos faits et dimensions, telles que la création de règles de transformation (comme, le remplacement des valeurs de colonne) et l'ajout d'expressions au niveau des colonnes. L'onglet Jeux de données se trouve à droite de l'onglet Mini-data warehouse :
Ajout de règles
Pour accéder à une présentation sur la manière d'ajouter des règles globales, voir Création de règles pour transformer des ensembles de données.
Ajout de nouvelles colonnes
Vous pouvez ajouter de nouvelles colonnes au jeu de données cible.
-
Ajout d'une nouvelle colonne à partir de rien
Cliquez sur + Ajouter).
Donnez un nom à la colonne et fournissez une expression pour définir les données de la colonne.
Pour plus d'informations, consultez Ajout de colonnes à un ensemble de données.
-
Ajout d'une colonne à partir d'une source
Cliquez sur près de Ajouter et sélectionnez Ajouter une colonne de la source.
Sélectionnez une colonne du jeu de données source.
Réorganisation des colonnes
Vous pouvez modifier la position ordinale d'une colonne.
-
Sélectionnez une colonne.
-
Cliquez sur , puis sur Réorganiser.
-
Utilisez les flèches pour déplacer la colonne vers le haut ou vers le bas.
-
Fermez Modifier l'ordinal lorsque vous êtes prêt.
Dimensions de jeu de rôles (dimensions réutilisables)
Une dimension de jeu de rôles (ou dimension réutilisable) est la même dimension utilisée plusieurs fois au sein du même schéma en étoile, mais avec différentes significations. On rencontre souvent le cas avec les dimensions Date et Client. Par exemple, votre schéma en étoile peut avoir deux entités Date, l'une représentant la Date de commande et l'autre la Date de réception.
Pour ajouter ou modifier le nom de rôle d'une dimension :
- Cliquez sur l'icône du nœud de dimension et sélectionnez Modifier le rôle.
Dans la boîte de dialogue Modifier le rôle, saisissez un nom (ou modifiez le nom existant) dans le champ Nom du rôle dans le schéma en étoile et cliquez sur OK.
Le nom de rôle apparaît sous le nom de dimension.
Options de gestion supplémentaires
Le tableau suivant décrit les options de gestion supplémentaires :
Pour | Procédure à suivre |
---|---|
Ajouter des jeux de données source supplémentaires | Consultez Sélection de vos données source. |
Ajouter des faits supplémentaires | Voir Ajout d'un fait |
Ajouter des dimensions supplémentaires | Consultez Ajout de dimensions et d'un fait au mini-data warehouse. |
Supprimer une dimension | Sélectionnez la dimension dans le volet Dimensions puis sélectionnez Supprimer dans le menu . |
Supprimer un fait | Sélectionnez le fait dans le volet Faits, puis sélectionnez Supprimer dans le menu . |
Recréer un mini-data warehouse | Cliquez sur le bouton dans le coin supérieur droit et sélectionnez Recréer les tables. La recréation d'un mini-data warehouse peut s'avérer nécessaire si, par exemple, le stockage comporte des modifications qui ne peuvent pas être automatiquement synchronisées au mini-data warehouse. |
Arrêter une tâche en cours d'exécution du mini-data warehouse | Cliquez sur le bouton Arrêter en haut à droite. |
Préparer une tâche de mini-data warehouse | Cliquez sur le bouton dans le coin supérieur droit et sélectionnez Préparer pour synchroniser les jeux de données avec les ressources Transformation ou Stockage et résolvez tout conflit de conception. Cela permet de préparer l'exécution d'une tâche. Cela inclut les éléments suivants :
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran. |
Planification d'une tâche de mini-data warehouse
Vous pouvez planifier la mise à jour périodique d'une tâche de mini-data warehouse. Vous pouvez définir une planification à intervalle défini ou définir la tâche de sorte qu'elle soit exécutée à la fin de l'exécution de tâches de données d'entrée.
Cliquez sur ... sur une tâche de données et sélectionnez Planification pour créer une planification. Le paramètre de planification par défaut est hérité des paramètres du projet. Pour plus d'informations sur les paramètres par défaut, voir Valeurs par défaut du mini-data warehouse.
Pour activer la planification, vous devez définir Planification sur Activée.
Planifications à intervalles définis
Vous pouvez utiliser une planification à intervalle défini pour exécuter la tâche, quel que soit le moment de la mise à jour des différentes sources d'entrée.
Sélectionnez À une heure spécifique dans Exécuter la tâche de données.
Vous pouvez définir une planification horaire, quotidienne, hebdomadaire ou mensuelle.
Planifications basées sur des événements
Vous pouvez utiliser une planification basée sur un événement pour exécuter la tâche à la fin de l'exécution de tâches de données d'entrée.
Sélectionnez Lors d'un événement spécifique dans Exécuter la tâche de données.
Vous pouvez décider d'exécuter la tâche lorsque n'importe laquelle des tâches d'entrée a été correctement exécutée ou lorsque n'importe quelle tâche d'entrée d'une sélection de tâches d'entrée a été correctement exécutée.
Chargement de données
Vous pouvez effectuer un chargement manuel des données. Cela s'avère utile en cas de problèmes avec une ou plusieurs tables.
Ouvrez la tâche de données et sélectionnez l'onglet Surveiller.
Sélectionnez les tables à charger.
Lorsqu'une dimension est sélectionnée pour être actualisée, tous les faits qui utilisent cette dimension sont eux aussi actualisés pour maintenir l'intégrité.
Cliquez sur Charger des tables.
Vous pouvez annuler le chargement des tables en attente de chargement en cliquant sur Annuler le chargement. Cela n'affectera pas les tables déjà chargées, et les chargements en cours d'exécution seront effectués jusqu'au bout.
Le chargement s'effectue comme suit :
Troncage des dimensions et faits sélectionnés.
Chargement des tables de dimensions sélectionnées depuis la tâche de données en amont.
Chargement des tables de faits depuis la tâche de données en amont. Cela inclut les éléments suivants :
Tables de faits explicitement sélectionnées.
Tables de faits associées à une dimension actualisée.
Paramètres du mini-data warehouse
Cliquez sur le bouton de barre d'outils Paramètres pour accéder à la boîte de dialogue Paramètres : <nom-de-mini-data-warehouse>.
Paramètres généraux
Dans l'onglet Général, les paramètres suivants sont disponibles :
- Base de données : base de données dans laquelle le mini-data warehouse est créé.
- Schéma de tâche de données : schéma dans lequel les jeux de données sont créés.
- Schéma interne : schéma dans lequel les jeux de données internes sont créés.
- Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique.
Paramètres d'exécution
L'onglet Délai d'exécution contient les paramètres suivants :
- Exécution parallèle : saisissez le nombre maximum de connexions de base de données que Qlik Cloud peut ouvrir pour la tâche. Par défaut, le nombre est défini sur 10.
- Entrepôt : ne s'applique qu'à Snowflake. Nom de l'entrepôt de données Snowflake.
Paramètres du catalogue
Publier dans le catalogue
Sélectionnez cette option pour publier cette version des données dans Catalogue sous forme d'ensemble de données. Le contenu de Catalogue sera mis à jour la prochaine fois que vous préparerez cette tâche.
Pour plus d'informations sur Catalogue, consultez Comprendre vos données grâce à des outils de catalogage.