Stockage de jeux de données
Vous pouvez stocker des jeux de données via une tâche de données de stockage. La tâche de données de stockage consomme les données déposées temporairement dans la zone de dépôt temporaire cloud par une tâche de données de dépôt temporaire. Vous pouvez utiliser les tables dans une application analytique, par exemple.
-
Vous pouvez concevoir une tâche de données de stockage lorsque l'état de la tâche de données de dépôt temporaire affiche au moins la valeur Prêt pour la préparation.
-
Vous pouvez préparer une tâche de données de stockage lorsque l'état de la tâche de données de dépôt temporaire affiche au moins la valeur Prêt à s'exécuter.
La tâche de données de stockage utilisera le même mode de fonctionnement (Chargement complet ou Chargement complet et capture des changements) que celui de la tâche de données de dépôt temporaire consommée. Les propriétés de configuration sont différentes entre les deux modes de fonctionnement, ainsi que les options de surveillance et de contrôle. Si vous utilisez une tâche de données de dépôt temporaire cible cloud avec Chargement complet uniquement, la tâche de données de stockage créera des vues vers les tables de dépôt temporaire au lieu de générer des tableaux physiques.
Création d'une tâche de données de stockage
Vous créez une tâche de données de stockage de trois manières différentes :
-
Cliquez sur ... sur une tâche de données de dépôt temporaire et sélectionnez Stocker les données afin de créer une tâche de données de stockage basée sur cette ressource de données de dépôt temporaire.
-
Dans un projet, cliquez sur Créer, puis sur Stocker les données. Dans ce cas, vous devez indiquer la tâche de données de dépôt temporaire à utiliser.
-
Lorsque vous intégrez des données, une tâche de données de stockage est créée. Elle est connectée à la tâche de données de dépôt temporaire également créé lors de l'intégration des données.
Pour plus d'informations, consultez Intégration de données.
Une fois que vous avez créé la tâche de données de stockage :
-
Ouvrez la tâche de données de stockage en cliquant sur ... et en sélectionnant Ouvrir.
La tâche de données de stockage s'ouvre et vous pouvez prévisualiser les jeux de données de sortie basés sur les tables de la ressource de données de dépôt temporaire. -
Apportez toutes les modifications nécessaires aux jeux de données inclus, telles que des transformations, le filtrage des données et l'ajout de colonnes.
Pour plus d'informations, consultez Gestion des jeux de données.
-
Lorsque vous avez ajouté les transformations souhaitées, vous pouvez valider les jeux de données en cliquant sur Valider les jeux de données. Si la validation détecte des erreurs, corrigez-les avant de poursuivre.
Pour plus d'informations, consultez Validation et ajustement des jeux de données.
-
Créer un modèle de données
Cliquez sur Modèle pour définir les relations entre les jeux de données inclus.
Pour plus d'informations, consultez Création d'un modèle de données.
-
Cliquez sur Préparer pour préparer la tâche de données et tous les artefacts nécessaires. Cette opération peut prendre un certain temps.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
-
Lorsque l'état affiche la valeur Prêt à s'exécuter, vous pouvez exécuter la tâche de données.
Cliquez sur Exécuter.
La tâche de données commence maintenant à créer des jeux de données pour stocker les données.
Conservation des données historiques
Vous pouvez conserver les données historiques de modification de type 2 pour faciliter la recréation des données à l'identique à un instant précis. Cela crée une banque de données historiques (Historical Data Store ou HDS) complète.
-
Les dimensions à changement lent de type 2 sont supportées.
-
La fusion d'un enregistrement modifié crée un nouvel enregistrement permettant de stocker les données modifiées et de conserver l'ancien enregistrement intact.
-
Les nouveaux enregistrements HDS sont automatiquement horodatés afin de vous permettre de créer une analyse des tendances et d'autres mini-data warehouses analytiques axés sur le temps.
Vous pouvez activer les données historiques en cliquant sur les éléments suivants :
-
Replication avec les données actuelles et l'historique des données précédentes dans Paramètres lors de l'intégration de données.
-
Conserver les enregistrements des modifications historiques et modifier l'archive des enregistrements dans la boîte de dialogue Paramètres d'une tâche de stockage.
Les données HDS sont stockées dans la table Prior du schéma de données interne. Vous pouvez utiliser les vues Historique et Historique en direct du schéma de données externe pour consulter les données historiques.
-
La vue Historique fusionne les données de la table Current et de la table Prior. Cette vue inclut toutes les modifications fusionnées.
-
La vue Historique en direct fusionne les données de la table Current, de la table Prior et de la table Changes. Cette vue inclut également toutes les modifications non encore fusionnées.
Pour plus d'informations, consultez Architecture du jeu de données dans un entrepôt de données cloud.
Planification d'une tâche de stockage
Vous pouvez planifier la mise à jour périodique d'une tâche de stockage.
-
Si la tâche de données de dépôt temporaire d'entrée utilise Chargement complet et CDC, vous pouvez définir uniquement une planification à intervalle défini.
-
Si la tâche de données de dépôt temporaire d'entrée utilise Chargement complet, vous pouvez définir une planification à intervalle défini ou déclencher l'exécution de la tâche à la fin de l'exécution de la tâche de données de dépôt temporaire d'entrée.
Note InformationsLorsque vous exécutez une planification à intervalle défini avec une tâche de données de dépôt temporaire d'entrée via Chargement complet, n'oubliez pas que chaque table terminée en dépôt temporaire est disponible alors que la tâche de dépôt temporaire est encore en cours d'exécution. Cela vous permet d'exécuter simultanément le dépôt temporaire et le stockage, ce qui peut améliorer le temps de chargement total.
Cliquez sur ... sur une tâche de données et sélectionnez Planification pour créer une planification. Les paramètres de planification par défaut sont hérités des paramètres du projet de données. Pour plus d'informations sur les paramètres par défaut, voir Valeurs par défaut du stockage. Pour activer la planification, vous devez toujours définir Planification sur Activée.
Planifications à intervalles définis
Vous pouvez utiliser une planification à intervalle défini pour exécuter la tâche de données de stockage, quel que soit le type de dépôt temporaire.
-
Sélectionnez À une heure spécifique dans Exécuter la tâche de données.
Vous pouvez définir une planification horaire, quotidienne, hebdomadaire ou mensuelle.
Planifications basées sur des événements
-
Sélectionnez À la fin de toute tâche de données d'entrée dans Exécuter la tâche de données.
La tâche de stockage s'exécutera chaque fois que la tâche de données de dépôt temporaire d'entrée se sera terminée correctement.
Surveillance d'une tâche de stockage
Vous pouvez surveiller l'état et la progression d'une tâche de stockage en cliquant sur Surveiller.
Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle.
Résolution des problèmes d'une tâche de données de stockage
En cas de problèmes avec une ou plusieurs tables dans une tâche de données de stockage, vous devrez peut-être actualiser ou recréer les données. Pour ce faire, il existe quelques options disponibles. Réfléchissez à l'option à utiliser dans l'ordre suivant :
-
Vous pouvez charger le jeu de données dans le dépôt temporaire. Le chargement du jeu de données dans le dépôt temporaire déclenchera le processus de comparaison dans le stockage et corrigera les données tout en conservant l'historique de type 2. Cette option doit être également envisagée dans les cas suivants :
-
Le chargement complet a été effectué il y a longtemps et il existe un grand nombre de modifications.
-
Si un chargement complet et des enregistrements de tables modifiées traités ont été supprimés par la maintenance de la zone de dépôt temporaire.
-
-
Vous pouvez charger les données dans la tâche de données de stockage.
Si les données d'historique sont activées, un chargement du stockage peut conduire à une perte des données d'historique. Si cela pose problème, pensez à charger plutôt le dépôt temporaire auprès de la source.
-
Vous pouvez recréer les tables. Cette option permet de recréer les jeux de données depuis la source.
-
Cliquez sur ..., puis sur Recréer les tables. Lors de la recréation d'une table, la tâche en aval réagira comme si une action de troncation et d'actualisation s'était produite sur les jeux de données sources.
-
Chargement de données
Vous pouvez effectuer un chargement manuel des tables. Cela s'avère utile en cas de problèmes avec une ou plusieurs tables.
-
Ouvrez la tâche de données et sélectionnez l'onglet Surveiller.
-
Sélectionnez les tables à charger.
-
Cliquez sur Charger des tables.
Le chargement se produira lors de la prochaine exécution de la tâche et s'effectuera comme suit :
-
Troncage des tables.
-
Chargement des données de dépôt temporaire dans les tables.
-
Chargement des modifications accumulées depuis le moment du chargement.
En règle générale, le mieux est d'actualiser le jeu de données en dépôt temporaire. C'est particulièrement vrai dans les cas suivants :
-
Si les données d'historique sont activées, un chargement du stockage peut conduire à une perte des données d'historique. Le chargement du jeu de données dans le dépôt temporaire déclenchera le processus de comparaison dans le stockage et corrigera les données tout en conservant l'historique de type 2.
-
Lorsque le chargement complet a été effectué, il y a longtemps et qu'il y a un grand nombre de modifications.
-
Si un chargement complet et des enregistrements de tables modifiées traités ont été supprimés par la maintenance de la zone de dépôt temporaire.
Les tâches en aval seront actualisées de sorte à appliquer les modifications et à éviter un antidatage. Si une actualisation est effectuée par troncation et chargement, tous les objets en aval seront eux aussi actualisés par troncation et chargement.
L'impact en aval dépend du type d'opération d'actualisation exécuté et du type du jeu de données en aval immédiat. Un traitement standard signifie que le jeu de données réagira et traitera les données via la méthode configurée pour le jeu de données en question.
-
Dans les tâches Transformation en aval :
Les transformations de jeux de données sont actualisées par troncation et chargement.
Les transformations SQL et les flux de transformation sont actualisés par comparaison au chargement complet et application des modifications.
-
Les tâches Mini-data warehouse suivant immédiatement une tâche Stockage sont actualisées par troncation et chargement.
Vous pouvez annuler le chargement des tables en attente de chargement en cliquant sur Annuler le chargement. Cela n'affectera pas les tables déjà chargées, et les chargements en cours d'exécution seront effectués jusqu'au bout.
Évolution du schéma
L'évolution du schéma vous permet de détecter facilement les modifications structurelles apportées à différentes sources de données, puis de contrôler la manière dont ces modifications seront appliquées à votre tâche. L'évolution du schéma peut être utilisée pour détecter les modifications des DDL qui ont été apportées au schéma des données sources. Vous pouvez également appliquer certaines modifications automatiquement.
Pour chaque type de modification, vous pouvez sélectionner le mode de traitement des modifications dans la section Évolution du schéma des paramètres de tâche. Vous pouvez appliquer la modification, l'ignorer, suspendre la table ou arrêter le traitement de la tâche.
Vous pouvez définir l'action à utiliser pour traiter la modification de DDL pour chaque type de modification. Certaines actions ne sont pas disponibles pour tous les types de modification.
-
Appliquer à la cible
Appliquez les modifications automatiquement.
-
Ignoré
Ignorez les modifications.
-
Suspendre la table
Suspendez la table. La table sera affichée comme en état d'erreur dans Surveiller.
-
Arrêter la tâche
Arrêtez le traitement de la tâche. Cela s'avère utile si vous souhaitez traiter manuellement toutes les modifications du schéma. Cela entraînera également l'arrêt de la planification, à savoir, les exécutions planifiées ne seront pas effectuées.
Les modifications suivantes sont supportées :
-
Ajouter une colonne
-
Créer une table correspondant au modèle de sélection
Si vous avez utilisé une Règle de sélection pour ajouter des jeux de données correspondant à un pattern, les nouvelles tables répondant au pattern seront détectées et ajoutées.
Pour plus d'informations sur les paramètres de tâche, consultez Évolution du schéma.
Limitations de l'évolution du schéma
Les limitations suivantes s'appliquent à l'évolution du schéma :
-
L'évolution du schéma est supportée uniquement si vous utilisez l'opération CDC comme méthode de mise à jour.
-
Si vous avez modifié les paramètres d'évolution du schéma, vous devez préparer de nouveau la tâche.
-
Si vous renommez des tables, l'évolution du schéma n'est pas supportée. Dans ce cas, vous devez actualiser les métadonnées avant de préparer la tâche.
-
Si vous concevez une tâche, vous devez actualiser le navigateur pour recevoir les modifications de l'évolution du schéma. Vous pouvez définir des notifications pour être alerté des modifications.
-
Dans les tâches de dépôt temporaire, l'abandon d'une colonne n'est pas supporté. Si vous abandonnez une colonne et que vous l'ajoutez, cela entraînera une erreur de table.
-
Dans les tâches de dépôt temporaire, une opération d'abandon de table n'entraîne pas l'abandon de la table. Le fait d'abandonner une table, puis d'ajouter une table, ne fera que tronquer l'ancienne table, et il ne sera pas ajouté de nouvelle table.
-
La modification de la longueur d'une colonne n'est pas possible pour toutes les cibles suivant le support dans la base de données cible.
-
Si le nom d'une colonne est modifié, les transformations explicites définies à l'aide de cette colonne ne seront pas prises en compte, car elles sont basées sur le nom de la colonne.
-
Les limitations liées à l'actualisation des métadonnées s'appliquent également à l'évolution du schéma.
Lors de la capture des modifications apportées aux DDL, les limitations suivantes s'appliquent :
-
Lorsqu'une séquence rapide d'opérations se produit dans la base de données source (par exemple, DDL>DML>DDL), Qlik Talend Data Integration peut analyser le journal dans le mauvais ordre, ce qui entraîne des données manquantes ou un comportement imprévisible. Pour minimiser ce risque, le mieux est d'attendre que les modifications soient appliquées à la cible avant d'effectuer l'opération suivante.
Par exemple, lors de la capture des modifications, si une table source est renommée à plusieurs reprises proches l'une de l'autre (et si la deuxième opération réattribue à la table son nom d'origine), il risque de se produire une erreur indiquant que la table existe déjà dans la base de données cible.
- Si vous modifiez le nom d'une table utilisée dans une tâche et que vous arrêtez ensuite la tâche, Qlik Talend Data Integration ne capturera pas les modifications apportées à cette table après la reprise de la tâche.
-
Il n'est pas possible de renommer une table source lorsqu'une tâche est arrêtée.
- La réaffectation des colonnes de clé primaire d'une table n'est pas supportée (et ne sera donc pas écrite dans la table de contrôle de l'historique DDL).
- Lorsque le type de données d'une colonne est modifié et que la (même) colonne est ensuite renommée alors que la tâche est arrêtée, la modification de la DDL apparaîtra dans la table de contrôle Historique DDL sous la forme « Supprimer la colonne, puis « Ajouter une colonne » lors de la reprise de la tâche. Notez que le même comportement peut également se produire en raison d'une latence prolongée.
- Les opérations CREATE TABLE effectuées sur la source alors qu'une tâche est arrêtée seront appliquées à la cible lorsque la tâche reprendra, mais ne seront pas enregistrées sous forme de DDL dans la table de contrôle Historique DDL.
-
Les opérations associées aux modifications des métadonnées (telles que ALTER TABLE (modifier la table), reorg (réorganiser), la reconstruction d'un index en cluster, etc.) peuvent entraîner un comportement imprévisible si elles sont effectuées :
-
Lors d'une opération Chargement complet
-OU-
-
Entre l'horodatage Démarrer le traitement des modifications depuis et l'heure actuelle (c'est-à-dire le moment où l'utilisateur clique sur OK dans la boîte de dialogue Options d'exécution avancées).
Exemple :
SI :
L'heure spécifiée pour Démarrer le traitement des modifications depuis est 10h00
ET :
Une colonne nommée Âge a été ajoutée à la table Employés à 10h10
ET :
L'utilisateur clique sur OK dans la boîte de dialogue Options d'exécution avancées à 10h15
ALORS :
Les modifications qui se sont produites entre 10h00 et 10h10 peuvent entraîner des erreurs d'opération CDC.
Note InformationsDans l'un des cas ci-dessus, la ou les tables concernées doivent être actualisées pour que les données puissent être correctement envoyées (déplacé) à la cible.
-
- L'instruction DDL
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
ne réplique pas la valeur par défaut sur la cible et la colonne nouvelle/modifiée est définie sur NULL. Notez que cela peut se produire même si la DDL qui a ajouté/modifié la colonne a été exécutée dans le passé. Si la colonne nouvelle/modifiée est nullable, le point de terminaison source met à jour toutes les lignes de la table avant d'enregistrer la DDL à proprement parler. Par conséquent, Qlik Talend Data Integration capture les modifications, mais ne met pas la cible à jour. Comme la colonne nouvelle/modifiée est définie sur NULL, si la table cible n'a pas de clé primaire/d'index unique, les mises à jour ultérieures généreront un message « zéro ligne affectée ». -
Les modifications apportées aux colonnes de précision TIMESTAMP et DATE ne seront pas capturées.
Paramètres de stockage
Vous pouvez définir les propriétés de la tâche de données de stockage lorsque la plateforme de données est un entrepôt de données cloud. Si vous utilisez Qlik Cloud comme plateforme de données, voir Paramètres de stockage des projets de données avec Qlik Cloud comme plateforme de données.
-
Cliquez sur Paramètres.
Paramètres généraux
-
Base de données
Base de données à utiliser dans la source de données.
-
Schéma de tâche
Vous pouvez modifier le nom du schéma de tâche de données de stockage. Le nom par défaut correspond au nom de la tâche de stockage.
-
Schéma interne
Vous pouvez modifier le nom du schéma de ressource de données de stockage interne. Le nom par défaut correspond au nom de la tâche de stockage auquel _internal est ajouté.
- Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique. -
Historique
Vous pouvez conserver les données historiques de changement pour faciliter la recréation des données à l'identique à un instant précis. Les vues Historique et Historique en direct vous permettent de consulter les données historiques. Sélectionnez Conserver les enregistrements historiques et modifier l'archive des enregistrements pour activer les données de modification historiques.
-
Lors de la comparaison du stockage au dépôt temporaire, vous pouvez choisir le mode de gestion des enregistrements qui n'existent pas dans le dépôt temporaire.
-
Indiquer comme supprimé
Cette option permet de supprimer de manière réversible des enregistrements qui n'existent pas dans le dépôt temporaire.
-
Conserver
Cette option permet de conserver l'ensemble des enregistrements qui n'existent pas dans le dépôt temporaire.
Note InformationsLes jeux de données compris dans la tâche de données de stockage doivent avoir un jeu de clés primaires. Dans le cas contraire, le système effectue un chargement initial dans la tâche de données de stockage chaque fois que des données de dépôt temporaire sont chargées. -
Paramètres des vues
-
Vues en direct
Pour lire les tables dont la latence est la plus faible, utilisez des vues en direct.
Pour plus d'informations sur les vues en direct, voir Utilisation des vues en direct.
Note InformationsLes vues en direct sont moins efficaces que les vues standard et demandent plus de ressources, car les données appliquées doivent être recalculées.
Paramètres d'exécution
-
Exécution parallèle
Vous pouvez définir le nombre maximal de connexions pour les chargements complets sur un nombre compris entre 1 et 5.
-
Entrepôt
Nom de l'entrepôt de données cloud. Ce paramètre ne s'applique qu'à Snowflake.
Paramètres du catalogue
-
Publier dans le catalogue
Sélectionnez cette option pour publier cette version des données dans Catalogue sous forme d'ensemble de données. Le contenu de Catalogue sera mis à jour la prochaine fois que vous préparerez cette tâche.
Pour plus d'informations sur Catalogue, consultez Comprendre vos données grâce à des outils de catalogage.
Évolution du schéma
Choisissez comment gérer les types suivants de modifications des DDL dans le schéma. Si vous avez modifié les paramètres d'évolution du schéma, vous devez préparer de nouveau la tâche. Le tableau ci-dessous décrit les actions disponibles pour les modifications des DDL supportées.
Modification de DDL | Appliquer à la cible | Ignoré | Arrêter la tâche |
---|---|---|---|
Ajouter une colonne | Oui | Oui | Oui |
Créer une table
Si vous avez utilisé une Règle de sélection pour ajouter des jeux de données correspondant à un pattern, les nouvelles tables répondant au pattern seront détectées et ajoutées. |
Oui | Oui | Oui |
Paramètres de stockage des projets de données avec Qlik Cloud comme plateforme de données
Vous pouvez définir le dossier à utiliser dans le stockage lorsque la plateforme de données utilisée est Qlik Cloud.
-
Cliquez sur Paramètres.
-
Sélectionnez le dossier à utiliser lors du stockage.
-
Lorsque vous êtes prêt, cliquez sur OK.
Opérations sur la tâche de données de stockage
Vous pouvez effectuer les opérations suivantes sur une tâche de données de stockage depuis le menu Tâches.
-
Ouvrir
Cela ouvre la tâche de données de stockage. Vous pouvez afficher la structure de la table et les détails sur la tâche de données et surveiller l'état du chargement complet et des lots de modifications.
-
Modifier
Vous pouvez modifier le nom et la description de la tâche et ajouter des balises.
-
Supprimer
Vous pouvez supprimer la tâche de données.
-
Préparer
Cela permet de préparer l'exécution d'une tâche. Cela inclut les éléments suivants :
-
Vérification que la conception est valide.
-
Création ou modification des tableaux et vues physiques afin qu'ils correspondent à la conception.
-
Génération du code SQL de la tâche de données.
-
Création ou modification des entrées de catalogue des jeux de données de sortie des tâches.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
-
-
Valider les jeux de données
Cette option permet de valider tous les jeux de données inclus dans la tâche de données.
Développez Valider et ajuster pour voir toutes les erreurs de validation et les changements de conception.
-
Recréer les tables
Cette option permet de recréer les jeux de données depuis la source. Lors de la recréation d'une table, la tâche en aval réagira comme si une action de troncation et d'actualisation s'était produite sur les jeux de données sources. Pour plus d'informations, consultez Résolution des problèmes d'une tâche de données de stockage.
-
Arrêter
Vous pouvez arrêter l'opération de la tâche de données. La tâche de données ne continuera pas à mettre à jour les tables.
Note InformationsCette option est disponible lors de l'exécution de la tâche de données. -
Reprendre
Vous pouvez reprendre l'opération d'une tâche de données au point où elle avait été arrêtée.
Note InformationsCette option est disponible lors de l'arrêt de la tâche de données. -
Transformer les données
Créez des transformations réutilisables au niveau de la ligne en fonction de règles et de SQL personnalisé. Cela crée une tâche Transformer les données.
-
Créer un mini-data warehouse
Créez un mini-data warehouse pour utiliser vos tâches de données. Cette opération permet de créer une tâche de données Mini-data warehouse.
Limitations
-
Si la tâche de données contient des jeux de données et si vous modifiez des paramètres de la connexion, par exemple le nom d'utilisateur, la base de données ou le schéma, le système suppose que les données existent au nouvel emplacement. Dans le cas contraire, vous pouvez :
-
déplacer les données de la source vers le nouvel emplacement ;
-
créer une tâche de données avec les mêmes paramètres.
-
-
Il n'est pas possible de modifier des clés primaires de tâches de stockage dans des projets avec Qlik Cloud (QVD) comme cible. Mettez les clés primaires à jour dans la tâche de dépôt temporaire, recréez la tâche de dépôt temporaire, puis recréez la tâche de stockage.