Dépôt temporaire de données à partir de sources de données
La première étape de transfert des données, lors de l'intégration, consiste à déposer temporairement les données. Cela implique de toujours transférer les données de la source de données locale vers une zone de dépôt temporaire.
Vous pouvez déposer temporairement des données depuis plusieurs sources de données via des connexions source.
La zone de dépôt temporaire est définie lorsque vous créez le projet.
-
Qlik Cloud (via Amazon S3)
Lorsque vous déposez temporairement des données dans Qlik Cloud (viaAmazon S3), vous pouvez les utiliser pour générer des tables QVD prêtes pour l'analyse dans Qlik Cloud.
-
Entrepôt de données cloud
Lorsque vous déposez temporairement des données dans un entrepôt de données cloud tel que Snowflake ou Azure Synapse Analytics, vous pouvez stocker des tables dans le même entrepôt de données cloud.
Création et configuration d'une tâche de données de dépôt temporaire
Cette section explique comment créer une tâche de données de dépôt temporaire. Le moyen le plus rapide de créer un pipeline de données est d'intégrer des données, ce qui crée une tâche de données de dépôt temporaire et une tâche de données de stockage, prêtes à la préparation et à l'exécution. Pour plus d'informations, consultez Intégration de données.
-
Dans votre projet, cliquez sur Ajouter nouveau et sélectionnez Déposer temporairement les données.
-
Dans la boîte de dialogue Déposer temporairement les données , saisissez le nom et la description de la tâche de données.
Sélectionnez Ouvrir pour ouvrir la tâche de données de dépôt temporaire une fois qu'elle a été créée.
Cliquez sur Créer.
-
Cliquez sur Sélectionner des données sources.
-
Sélectionnez une connexion aux données sources et cliquez sur Suivant.
Vous pouvez utiliser les filtres du panneau gauche pour filtrer la liste de connexions en fonction du type de source, de l'espace et du propriétaire.
Si vous n'avez pas encore de connexion à la source de données, vous devez commencer par en créer une en cliquant sur Ajouter une connexion.
Pour plus d'informations sur la création d'une connexion aux sources supportées, voir Configuration des connexions aux sources de données.
Note InformationsLorsque vous avez sélectionné des tables à l'étape suivante, il est impossible de remplacer la connexion source provenant d'une source de données locale par une source de données cloud, ou inversement. Vous pouvez uniquement modifier la connexion à une autre source de données du même type. -
Sélectionnez des jeux de données à inclure dans la tâche de données. La boîte de dialogue de sélection varie selon le type de source auquel vous vous êtes connecté.
Lorsque vous avez fini de sélectionner des tables, cliquez sur Enregistrer.
Jeux de données apparaît.
-
Vous pouvez modifier des paramètres pour le dépôt temporaire. Cela n'est pas nécessaire.
-
Cliquez sur Paramètres.
Pour plus d'informations sur les paramètres, voir Paramètres de dépôt temporaire.
-
-
Vous pouvez désormais prévisualiser la structure et les métadonnées des tables de ressources de données sélectionnées. Sont concernées toutes les tables répertoriées de manière explicite, ainsi que les tables correspondant aux règles de sélection.
Si vous souhaitez ajouter d'autres tables provenant de la source de données, cliquez sur Sélectionner des données sources.
-
Vous pouvez effectuer des transformations de base sur les jeux de données, comme par exemple filtrer des données ou ajouter des colonnes. Cela n'est pas nécessaire.
Pour plus d'informations, consultez Gestion des jeux de données.
-
Lorsque vous avez ajouté les transformations souhaitées, vous pouvez valider les jeux de données en cliquant sur Valider les jeux de données. Si la validation détecte des erreurs, corrigez-les avant de poursuivre.
Pour plus d'informations, consultez Validation et ajustement des jeux de données.
-
Lorsque vous êtes prêt, cliquez sur Préparer pour cataloguer la tâche de données et la préparer pour l'exécution.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
-
Une fois la tâche de données préparée, lorsque vous êtes prêt à lancer la réplication de données, cliquez sur Exécuter.
La réplication doit commencer. Vous pouvez voir son état d'avancement dans Contrôler. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle.
Sélection de données à partir d'une base de données
Vous pouvez sélectionner certaines tables ou vues, ou utiliser des règles de sélection pour inclure ou exclure des groupes de tables.
Utilisez % comme caractère générique pour définir des critères de sélection pour les schémas et les tables.
-
%.% définit toutes les tables de tous les schémas.
-
Public.% définit toutes les tables du schéma Public.
Critères de sélection vous fournit un aperçu selon vos sélections.
Vous pouvez effectuer l'une des deux opérations suivantes :
-
Créez une règle pour inclure ou exclure un groupe de tables en fonction des critères de sélection.
Cliquez sur Ajouter une règle à partir des critères de sélection pour créer une règle, puis sélectionnez Inclure ou Exclure.
Vous pouvez voir la règle sous Règles de sélection.
-
Sélectionnez un ou plusieurs ensembles de données, puis cliquez sur Ajouter les ensembles de données sélectionnés.
Vous pouvez voir les ensembles de données ajoutés sous Ensembles de données sélectionnés de manière explicite.
Les règles de sélection ne s'appliquent qu'à l'ensemble actuel de tables et de vues, et non aux tables et aux vues ajoutées après.
Exécution d'une tâche de dépôt temporaire avec Change Data Capture (CDC)
Vous pouvez exécuter la tâche de dépôt temporaire quand elle est préparée. Cela démarre la réplication qui transfère les données de la source de données sur site vers la zone de dépôt temporaire.
-
Cliquez sur Exécuter pour démarrer le dépôt temporaire des données.
La réplication doit commencer. La tâche de données aura l'état En cours d'exécution. Pour commencer, la source de données complète est copiée, puis les modifications sont suivies. Cela signifie que les modifications sont continuellement recherchées et transférées, une fois découvertes. Cela maintient à jour les données de dépôt temporaire de la zone de dépôt temporaire.
Sur la page d'accueil de Qlik Talend Data Integration, vous pouvez afficher l'état, la date et l'heure de mise à jour des données de dépôt temporaire, ainsi que le nombre de tables en erreur. Vous pouvez également ouvrir la tâche de données et sélectionner l'onglet Tables pour afficher les informations de métadonnées de base des tables.
Vous pouvez suivre l'état d'avancement en détail en ouvrant l'onglet Contrôler. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle.
Lorsque toutes les tables sont chargées et que le premier ensemble de modifications est traité, le champ Les données sont mises à jour au de la carte de la tâche de données indique que des changements de la source jusqu'à ce point sont disponibles dans la tâche de données.
Chargement de tables
Vous pouvez actualiser les données de la source.
Chargement de tables individuelles
Vous pouvez actualiser manuellement des tables spécifiques sans interférer avec Change Data Capture (CDC). Cela s'avère utile en cas de problèmes CDC avec une ou plusieurs tables.
-
Ouvrez la tâche de données de dépôt temporaire et sélectionnez l'onglet Surveiller.
-
Sélectionnez les tables à charger.
-
Cliquez sur Charger des tables.
Si vous ne parvenez pas à résoudre les problèmes en actualisant les tables, ou si les problèmes affectent la tâche toute entière, à la place, vous pouvez actualiser l'ensemble des tables dans la cible. Cette opération redémarrera Change Data Capture (CDC).
Actualisation de l'ensemble des tables dans la cible
Vous pouvez actualiser l'ensemble des tables dans la cible, si vous rencontrez des problèmes liés à CDC qui ne peuvent pas être résolus en actualisant des tables spécifiques. Exemples de problèmes rencontrés : événements manquants, problèmes causés par la réorganisation de la base de données source ou échec de lecture des événements de la base de données source.
- Arrêtez la tâche de données et l'ensemble des tâches qui la consomment.
-
Ouvrez la tâche de données et sélectionnez l'onglet Surveiller.
-
Cliquez sur ..., puis sur Actualiser la cible.
Cette opération actualise l'ensemble des tables de la cible via une action Abandonner-Créer et redémarre la totalité de la capture des données de modification à partir de ce point.
-
Les tâches de stockage qui consomment la tâche de données de dépôt temporaire sont actualisées via une opération Comparer et appliquer lors de leur prochaine exécution afin d'être synchronisées. L'historique existant est conservé. L'historique de type 2 sera mis à jour pour refléter les modifications après l'exécution du processus Charger et comparer.
L'horodatage de la date de début de l'historique de type 2 reflétera la date de chargement et pas forcément la date à laquelle la modification a eu lieu dans la source.
-
Les vues de stockage en direct ne seront pas fiables, lors de l'opération d'actualisation de la cible et tant que le stockage n'aura pas été synchronisé. Le stockage est entièrement synchronisé lorsque :
-
toutes les tables sont actualisées via Comparer et appliquer ;
-
un cycle de modifications est réalisé pour chaque table.
-
Exécution d'une tâche de données de dépôt temporaire avec Charger et comparer
Vous pouvez copier des données via la tâche de données de dépôt temporaire quand elle est préparée.
-
Cliquez sur Exécuter pour démarrer le chargement complet.
Les données vont maintenant commencer à être copiées, et le statut de la tâche de données sera En cours. Une fois la source de données complète copiée, son état est Terminé.
Sur la page d'accueil de Qlik Talend Data Integration, vous pouvez afficher l'état, la date et l'heure de mise à jour des données de dépôt temporaire, ainsi que le nombre de tables en erreur. Vous pouvez également ouvrir la tâche de données et sélectionner l'onglet Tables pour afficher les informations de métadonnées de base des tables.
Vous pouvez suivre l'état d'avancement en détail en ouvrant l'onglet Contrôler. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle.
Lorsque toutes les tables sont chargées, le champ Les données sont mises à jour au de la carte de la tâche de données indique que des changements de la source jusqu'à ce point sont disponibles dans la ressource de données. Cependant, certaines tables de la tâche de données peuvent être mises à jour ultérieurement, suivant le moment où leur chargement a commencé. Cela signifie que la cohérence des données n'est pas garantie. Par exemple, si le chargement a commencé à 08h00 et qu'il a pris 4 heures, Les données sont mises à jour au indiquera 08h00 lorsque le chargement sera terminé. En revanche, une table dont le chargement a démarré à 11h30 inclura les changements de la source qui se sont produits entre 08h00 et 11h30.
Le champ Les données sont mises à jour au reflète uniquement les tables correctement chargées. Il n'indique aucune information concernant les tables dont le chargement a échoué. Dans les cibles cloud, si un chargement est effectué avec toutes les tables en état d'erreur, le champ sera vide.
Chargement de données lors de l'utilisation de Charger et comparer
Lorsque vous utilisez Charger et comparer comme méthode de mise à jour, vous devez charger les données pour les maintenir à jour par rapport à la source de données.
-
Cliquez sur Charger pour effectuer un chargement manuel de l'ensemble des tables.
-
Configurez un chargement planifié.
Chargement de tables individuelles
Vous pouvez actualiser des tables spécifiques manuellement. Cela s'avère utile en cas de problèmes avec une ou plusieurs tables.
-
Ouvrez la tâche de données de dépôt temporaire et sélectionnez l'onglet Surveiller.
-
Sélectionnez les tables à charger.
-
Cliquez sur Charger des tables.
- Cette option deviendra disponible une fois que la tâche de dépôt temporaire aura été exécutée au moins une fois et uniquement lorsque la tâche n'est pas en cours d'exécution.
- Les modifications des métadonnées ne sont pas supportées. En présence de modifications des métadonnées dans la source, celles-ci sont propagées au dépôt temporaire lors de l'actualisation des données, mais elles ne seront pas traitées correctement. Cela peut entraîner l'échec du stockage de consommation.
Planification d'une tâche de données de dépôt temporaire Charger et comparer
Vous pouvez planifier des chargements périodiques de la tâche de données de dépôt temporaire si vous disposez du rôle Peut utiliser dans l'espace de la tâche de données. Pour que la planification soit active, il faut que le statut de la tâche de données soit au minimum Préparé.
-
Cliquez sur ... sur une tâche de données et sélectionnez Planification.
Vous pouvez définir une planification à intervalle défini.
Pour des informations sur les intervalles de planification minimaux en fonction du type de source de données et du niveau d'abonnement, consultez Intervalles de planification minimaux autorisés.
Définition de la priorité de chargement des ensembles de données
Vous pouvez contrôler l'ordre de chargement des ensembles de données de votre tâche de données en attribuant une priorité de chargement à chaque ensemble de données. Cela peut être utile, par exemple, si vous souhaitez charger les ensembles de données plus petits avant les grands.
-
Cliquez sur Priorité de chargement.
-
Sélectionnez une priorité de chargement pour chaque ensemble de données.
La priorité de chargement par défaut est Normale. Les ensembles de données seront chargés dans l'ordre de priorité suivant :
-
La plus élevée
-
Plus élevée
-
Élevée
-
Normale
-
Faible
-
Plus faible
-
La plus faible
Les ensembles de données ayant la même priorité ne sont pas chargés dans un ordre particulier.
-
-
Cliquez sur OK.
Opérations sur la tâche de données de dépôt temporaire
Vous pouvez effectuer les opérations suivantes sur une tâche de données de dépôt temporaire depuis le menu Tâches.
-
Ouvrir
Cela ouvre la tâche de données de dépôt temporaire. Vous pouvez afficher la structure des tables et les détails de la tâche de données.
-
Modifier
Vous pouvez modifier le nom et la description de la tâche.
-
Supprimer
Vous pouvez supprimer la tâche de données.
Les objets suivants ne sont pas supprimés et doivent l'être manuellement :
-
Données de la zone de chargement temporaire.
-
-
Exécuter
Vous pouvez exécuter la tâche de données pour démarrer la copie de données.
Exécution d'une tâche de dépôt temporaire avec Change Data Capture (CDC)
Exécution d'une tâche de données de dépôt temporaire avec Charger et comparer
-
Arrêter
Vous pouvez arrêter l'opération d'une tâche de données en cours d'exécution. La zone de dépôt temporaire n'est pas mise à jour avec les données modifiées.
Lorsque vous arrêtez une tâche de données Chargement complet avec une planification de chargement, seul le chargement en cours est arrêté. Si l'état de la tâche de données est À l'arrêt et si un chargement planifié est actif, son chargement reprendra à l'heure planifiée suivante. Vous devez désactiver la planification du chargement dans Planification du chargement.
-
Charger
Vous pouvez effectuer un chargement manuel d'une tâche de données en mode de mise à jour Charger et comparer.
- Préparer
Cela permet de préparer l'exécution d'une tâche. Cela inclut les éléments suivants :
-
Vérification que la conception est valide.
-
Création ou modification des tableaux et vues physiques afin qu'ils correspondent à la conception.
-
Génération du code SQL de la tâche de données.
-
Création ou modification des entrées de catalogue des jeux de données de sortie des tâches.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
-
-
Recréer les tables
Cette option permet de recréer les jeux de données depuis la source.
-
Planification
Vous pouvez configurer un chargement planifié pour les tâches de données de dépôt temporaire en mode Chargement complet. Vous pouvez définir une planification à intervalle défini qui peut être personnalisée.
Vous pouvez également activer ou désactiver les chargements planifiés.
Pour pouvoir planifier des chargements, vous devez disposer du rôle Peut utiliser sur l'espace de la tâche de données.
-
Stocker les données
Vous pouvez créer une tâche de données de stockage qui utilise des données provenant de cette tâche de données de dépôt temporaire.
Actualisation des métadonnées
Vous pouvez actualiser les métadonnées de la tâche pour les aligner sur les modifications apportées aux métadonnées de la source dans la vue Conception d'une tâche. Pour les applications SaaS qui utilisent Metadata manager, il convient d'actualiser Metadata manager avant de pouvoir actualiser les métadonnées de la tâche de données.
-
Vous pouvez effectuer l'une des opérations suivantes :
-
Cliquez sur ..., puis sur Actualiser les métadonnées pour actualiser les métadonnées de la totalité des jeux de données de la tâche.
-
Cliquez sur ... sur un jeu de données dans Jeux de données, puis sur Actualiser les métadonnées pour actualiser les métadonnées d'un seul jeu de données.
Vous pouvez afficher le statut de l'actualisation des métadonnées sous Actualiser les métadonnées dans la partie inférieure de l'écran. Vous pouvez voir à quel moment les métadonnées ont été actualisées pour la dernière fois en survolant à l'aide du curseur.
-
-
Préparez la tâche de données de sorte à appliquer les modifications.
Une fois la tâche de données préparée et les modifications appliquées, les modifications sont supprimées de Actualiser les métadonnées.
Pour pouvoir propager les modifications, vous devez préparer des tâches de stockage qui consomment cette tâche.
Si une colonne est retirée, une transformation avec des valeurs Null est ajoutée pour garantir que le stockage ne perdra pas de données historiques.
Limitations
-
Un renommage avec une colonne abandonnée avant cela, dans le même laps de temps, sera traduit en renommage de la colonne abandonnée si elles ont le même type de données et la même longueur de données.
Avant : a b c d
Après : a c1 d
Dans cet exemple, la colonne b a été abandonnée et la colonne c a été renommée c1, et b et c ont le même type de données et la même longueur de données.
Cela sera identifié comme le renommage de la colonne b en c1 et un abandon de la colonne c.
-
Le renommage de la dernière colonne n'est pas reconnu, même si la dernière colonne a été abandonnée et celle d'avant a été renommée.
Avant : a b c d
Après : a b c1
Dans cet exemple, la colonne d a été abandonnée et la colonne c a été renommée c1.
Cela sera identifié comme un abandon de la colonne c et de la colonne d et un ajout de la colonne c1.
-
Les nouvelles colonnes sont supposées être ajoutées à la fin. Si les colonnes sont ajoutées au milieu avec le même type de données que celui de la colonne suivante, elles peuvent être interprétées comme un abandon et un renommage.
Suppression de colonnes
Si vous déposez temporairement une colonne consommée par une tâche de données de stockage avec l'historique activé, vous devez procéder comme suit pour préserver l'historique et éviter une éventuelle perte de données.
Arrêtez la tâche de données de dépôt temporaire.
Exécutez la tâche de données de stockage pour être sûr que toutes les données de dépôt temporaire sont lues.
Déposez la colonne dans le dépôt temporaire.
Exécutez la tâche de données de dépôt temporaire.
Dans le stockage, ajoutez la colonne avec une expression par défaut (Null ou valeur par défaut) ou déposez temporairement la colonne.
Maintenance de la zone de dépôt temporaire
Le nettoyage automatique de la zone de dépôt temporaire n'est pas supporté. Cela peut affecter les performances.
Nous vous recommandons d'effectuer des nettoyages manuels des anciennes données obtenues via le chargement complet dans la zone de dépôt temporaire.
Qlik Cloud (via Amazon S3)
S'il existe plusieurs dossiers de données de chargement complet, vous pouvez tous les supprimer, sauf le dossier le plus récent. Vous pouvez également supprimer les partitions de données modifiées qui ont été traitées.
Entrepôt de données cloud
Vous pouvez supprimer le chargement complet et les enregistrements de la table de modifications qui ont été traités.
Recommandations
Si une clé primaire d'une table source peut être mise à jour, activez l'option DELETE et INSERT lors de la mise à jour d'une colonne de clé primaire dans Réglage du traitement des modifications.
Limitations
La réplication des données Varchar supérieures à 8 000 octets ou des données Nvarchar supérieures à 4 000 octets n'est pas supportée.
La modification de la nullabilité n'est pas supportée sur les colonnes déplacées, soit en la modifiant directement, soit en utilisant une règle de transformation. En revanche, les nouvelles colonnes créées dans la tâche sont nullables par défaut.
Les transformations sont soumises aux limitations suivantes :
- Les transformations ne sont pas supportées pour les colonnes dont les langues s'écrivent de droite à gauche.
Aucune transformation ne peut être effectuée sur des colonnes dont le nom contient des caractères spéciaux (par ex. #, \, /, -).
- La seule transformation supportée pour les types de données LOB/CLOB est le dépôt de la colonne sur la cible.
- L'utilisation d'une transformation pour renommer une colonne, puis l'ajout d'une nouvelle colonne portant le même nom ne sont pas supportés.