Enregistrement de données qui existent déjà sur la plateforme de données

Vous pouvez enregistrer les données qui existent déjà sur la plateforme de données pour organiser et transformer les données et créer des datamarts. Cela vous permet d'utiliser des données intégrées à d'autres outils que Qlik Talend Data Integration, par exemple, Qlik Replicate ou Stitch.

Lorsque vous enregistrez des données, deux tâches de données sont créées.

Données enregistrées

L'enregistrement des données implique la création de vues pour préparer les données à la création de jeux de données.
Stockage

Cela implique la génération et le stockage de jeux de données basés sur les données enregistrées.

Stockage de jeux de données

Lorsque vous avez enregistré les données, vous pouvez utiliser les jeux de données générés de plusieurs manières.

Vous pouvez utiliser les jeux de données dans une application analytique.
Vous pouvez créer des transformations.
Vous pouvez créer un datamart

Enregistrer les données

Vous pouvez enregistrer des données qui existent dans l'entrepôt de données cloud défini dans le projet. Les jeux de données générés seront stockés dans le même entrepôt de données cloud.

Pour plus d'informations sur les projets, consultez Création et gestion de projets de pipeline de données.

Cliquez sur Créer, puis sur Enregistrer les données dans un projet.
Ajoutez un Nom et une Description pour la tâche de données.

Cliquez sur Suivant.
Sélectionnez les données à enregistrer.

Sélection de données à inclure

Cliquez sur Suivant.

La boîte de dialogue Paramètres apparaît.
Sélectionnez le mode de mise à jour des données dans Méthode de mise à jour.

Sélectionnez Incrémentiel via limite supérieure si les données sont répliquées via Qlik Replicate ou Stitch.
- Utilisez Incrémentiel via limite supérieure pour traiter les modifications de données de manière incrémentielle via un modèle de limite supérieure. Il s'agit de la méthode suggérée si les données sont répliquées par Qlik Replicate (avec Chargement complet et stockage des modifications activé) ou Stitch.
  
  Pour plus d'informations, consultez Méthode de mise à jour.
- Utilisez Comparer au stockage existant lorsque les données ont été chargées une seule fois ou si elles sont mises à jour via des chargements complets.
Prévisualisez les deux tâches de données créées dans Récapitulatif et renommez-les, si vous préférez.

Note ConseilLes noms sont utilisés lors du nommage des schémas de base de données dans la ressource de données de stockage. Un schéma ne pouvant être associé qu'à une seule tâche, pensez à employer des noms uniques pour éviter tout conflit avec les tâches de données d'autres projets utilisant la même plateforme de données.
Indiquez si vous souhaitez ouvrir la tâche de données enregistrée ou revenir au projet.

Lorsque vous êtes prêt(e), cliquez sur Terminer.

Les deux tâches de données sont maintenant créées. Pour commencer la réplication des données, vous devez :

Préparez la tâche de données enregistrée.

Cliquez sur Préparer dans la tâche de données.

Lorsque des artefacts ont été créés, l'état de la tâche de données est Enregistré.
Préparer et exécuter la tâche de données de stockage.

Pour plus d'informations, consultez Stockage de jeux de données.

Sélection de données à inclure

Lorsque vous sélectionnez des données à inclure, vous pouvez sélectionner certaines tables ou vues, ou utiliser des règles de sélection pour inclure ou exclure des groupes de tables.

Utilisez % comme caractère générique pour définir des critères de sélection pour les schémas et les tables.

%.% définit toutes les tables de tous les schémas.
Public.% définit toutes les tables du schéma Public.

Critères de sélection vous fournit un aperçu selon vos sélections.

Vous pouvez effectuer l'une des deux opérations suivantes :

Créez une règle pour inclure ou exclure un groupe de tables en fonction des critères de sélection.

Cliquez sur Ajouter une règle à partir des critères de sélection pour créer une règle, puis sélectionnez Inclure ou Exclure.

Vous pouvez voir la règle sous Règles de sélection.
Sélectionnez un ou plusieurs jeux de données, puis cliquez sur Ajouter les jeux de données sélectionnés.

Vous pouvez voir les jeux de données ajoutés sous Jeux de données sélectionnés de manière explicite.

Les règles de sélection ne s'appliquent qu'à l'ensemble actuel de tables et de vues, et non aux tables et aux vues ajoutées après.

Vous pouvez actualiser les métadonnées de la tâche pour les aligner sur les modifications apportées aux métadonnées de la source dans la vue Conception d'une tâche. Pour les applications SaaS qui utilisent Metadata manager, il convient d'actualiser Metadata manager avant de pouvoir actualiser les métadonnées de la tâche de données.

Cette opération affecte uniquement les tables de la vue Conception d'une tâche.

Vous pouvez effectuer l'une des opérations suivantes :
- Cliquez sur ..., puis sur Actualiser les métadonnées pour actualiser les métadonnées de la totalité des jeux de données de la tâche.
- Cliquez sur ... sur un jeu de données dans Jeux de données, puis sur Actualiser les métadonnées pour actualiser les métadonnées d'un seul jeu de données.
Vous pouvez afficher le statut de l'actualisation des métadonnées sous Actualiser les métadonnées dans la partie inférieure de l'écran. Vous pouvez voir à quel moment les métadonnées ont été actualisées pour la dernière fois en survolant à l'aide du curseur.
Préparez la tâche de données de sorte à appliquer les modifications.

Une fois la tâche de données préparée et les modifications appliquées, les modifications sont supprimées de Actualiser les métadonnées.

Pour pouvoir propager les modifications, vous devez préparer des tâches de stockage qui consomment cette tâche.

Si une colonne est retirée, une transformation avec des valeurs Null est ajoutée pour garantir que le stockage ne perdra pas de données historiques.

Limitations de l'actualisation des métadonnées

Un renommage avec une colonne abandonnée avant cela, dans le même laps de temps, sera traduit en renommage de la colonne abandonnée si elles ont le même type de données et la même longueur de données.

Avant : a b c d

Après : a c1 d

Dans cet exemple, la colonne b a été abandonnée et la colonne c a été renommée c1, et b et c ont le même type de données et la même longueur de données.

Cela sera identifié comme le renommage de la colonne b en c1 et un abandon de la colonne c.
Le renommage de la dernière colonne n'est pas reconnu, même si la dernière colonne a été abandonnée et celle d'avant a été renommée.

Avant : a b c d

Après : a b c1

Dans cet exemple, la colonne d a été abandonnée et la colonne c a été renommée c1.

Cela sera identifié comme un abandon de la colonne c et de la colonne d et un ajout de la colonne c1.
Les nouvelles colonnes sont supposées être ajoutées à la fin. Si les colonnes sont ajoutées au milieu avec le même type de données que celui de la colonne suivante, elles peuvent être interprétées comme un abandon et un renommage.

Suppression d'une tâche

Vous pouvez supprimer la tâche de données si elle n'est pas en cours d'exécution et s'il n'existe pas de dépendances vis-à-vis des tâches en aval dans le même projet.

Dans la vue Projet de pipeline du projet, cliquez sur sur une tâche et sélectionnez Supprimer.

Les artefacts (tables et vues) créés par la tâche seront également supprimés, sauf si vous choisissez de les conserver.

Gardez à l'esprit que les artefacts que vous conservez ne seront plus mis à jour par la tâche.

Affichage des informations sur les tâches

Cliquez sur dans la barre de menus pour afficher les informations sur les tâches telles que :

Propriétaire
Espace
Plateforme de données
ID de projet
ID d'exécution de la tâche de données

Paramètres de données enregistrés

Vous pouvez définir des propriétés pour la tâche de données enregistrée.

Cliquez sur Paramètres.

Paramètres généraux

Base de données

Base de données à utiliser dans la cible.
Schéma de tâche

Vous pouvez modifier le nom du schéma de la tâche de données.
Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.

Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique.
Publier dans le catalogue

Sélectionnez cette option pour publier cette version des données dans Catalogue sous forme de jeu de données. Le contenu de Catalogue sera mis à jour la prochaine fois que vous préparerez cette tâche.

Pour plus d'informations sur Catalogue, consultez Comprendre vos données grâce à des outils de catalogage.

Méthode de mise à jour

Détection des modifications

Utilisez Comparer au stockage existant lorsque les données ont été chargées une seule fois ou si elles sont mises à jour via des chargements complets.
Utilisez Incrémentiel via limite supérieure pour traiter les modifications de données de manière incrémentielle via la méthode de limite supérieure.

Cette option nécessite que toutes les tables disposent d'une clé primaire définie. Vous pouvez définir une clé primaire manuellement dans la vue Jeux de données pour les tables auxquelles il manque une clé primaire.

Paramètres de chargement incrémentiel

Ces paramètres sont disponibles lorsque l'option Incrémentiel via limite supérieure est sélectionnée.

Si les données sont répliquées par une tâche Qlik Replicate avec Chargement complet et stockage des modifications, réglez Paramètres de chargement incrémentiel sur Qlik ReplicateParamètres.
Si les données sont répliquées par un pipeline de données Stitch, et si vos tables sources ont une clé primaire définie, définissez Paramètres de chargement incrémentiel sur Paramètres par défaut Stitch.
Sinon, définissez Paramètres de chargement incrémentiel sur Personnalisés et définissez les paramètres vous-même.

Paramètres de chargement incrémentiel

Paramètre	Personnalisé	Qlik ReplicateParamètres	Paramètres par défaut Stitch
Tables de modifications	Si les modifications figurent dans la même table, sélectionnez Les modifications figurent dans la même table. Sinon, décochez Les modifications figurent dans la même table et spécifiez un modèle de table de modifications dans Modèle de table de modifications.	${SOURCE_TABLE_NAME}__ct table	Les modifications figurent dans la même table.
Colonne de limite supérieure	Indiquez le nom de la colonne de limite supérieure dans Nom.	header__change_seq	_SDC_BATCHED_AT
Colonne "Date de début"	Vous pouvez définir la "Date de début" via l'heure de début de lot ou via une colonne sélectionnée. Si vous sélectionnez Colonne "Date de début" sélectionnée, vous devez définir un Modèle "Date de début".	header__timestamp	_SDC_BATCHED_AT Vous pouvez remplacer cela pour indiquer la "Date de début" via l'heure de début de lot ou en sélectionnant une autre colonne.
Suppressions réversibles	Vous pouvez inclure des suppressions réversibles dans les modifications en sélectionnant Les modifications incluent des suppressions réversibles et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la modification est une suppression réversible. Exemple : ${is_deleted} = 1	${header__change_oper} = 'D'	Vous pouvez inclure des suppressions réversibles dans les modifications en sélectionnant Les modifications incluent des suppressions réversibles et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la modification est une suppression réversible. Exemple : ${is_deleted} = 1
Image d'avant	Vous pouvez filtrer les enregistrements d'images d'avant dans les modifications des tables de modifications en sélectionnant Image d'avant et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la ligne contient l'image précédent la mise à jour. Exemple : ${header__change_oper} = 'B'	${header__change_oper} = 'B'	Il n'existe aucun enregistrement d'image d'avant dans les données.

Configuration Qlik Replicate recommandée

Ces paramètres de tâche Qlik Replicate sont recommandés lors de l'enregistrement de données répliquées via une tâche Qlik Replicate stockant les modifications.

La tâche Qlik Replicate doit être configurée via les options Chargement complet et Stocker les modifications.
Dans Stocker les paramètres de modification > Tables de modifications, assurez-vous que les colonnes de table de modifications suivantes sont incluses, via leurs noms par défaut :
- [header__]change_seq
- [header__]change_oper
- [header__] timestamp
Dans Stocker les paramètres de modification > Tables de modifications, définissez Sur UPDATE sur Stocker l'image d'après uniquement.

Cela réduit l'espace occupé par chaque mise à jour, en excluant l'image d'avant. Si vous ne planifiez pas d'utiliser l'image d'avant, utilisez cette option.
Dans Stocker les paramètres de modification > Tables de modifications, définissez Suffixe sur la valeur par défaut __ct.
N'appliquez pas les transformations globales suivantes :
- Renommer la table de modifications
- Renommer le schéma de la table de modifications
Si une clé primaire d'une table source peut être mise à jour, activez DELETE et INSERT lors de la mise à jour d'une option de colonne de clé primaire dans Réglage du traitement des modifications.

L'historique de l'ancien enregistrement ne sera pas préservé dans le nouvel enregistrement.

Note InformationsCette option est supportée depuis Qlik Replicate November 2022.

Opérations sur la tâche de données enregistrée

Vous pouvez effectuer les opérations suivantes sur une tâche de données enregistrée depuis le menu Tâches.

Ouvrez

Cela ouvre la tâche de données. Vous pouvez afficher la structure des tables et les détails de la tâche de données.
Modifier

Vous pouvez modifier le nom et la description de la tâche et ajouter des balises.
Delete

Vous pouvez supprimer la tâche de données.

Les données source ne sont pas supprimées.
Synchroniser les jeux de données
Cette option permet de synchroniser les changements de conception qui ne peuvent pas être adaptés automatiquement.
Recréer les tables

Cette option permet de recréer les jeux de données depuis la source.

Note InformationsEn cas de problèmes avec des tables individuelles, il est recommandé de commencer par tenter d'actualiser les tables au lieu de les recréer. La recréation des tables peut entraîner une perte de données historiques. En cas de modifications importantes, vous devez également préparer les tâches de données en aval qui consomment les tâches de données recréées pour actualiser les données.
Stocker les données

Vous pouvez créer une tâche de données de stockage qui utilise des données provenant de cette tâche de données de dépôt temporaire.

Considérations relatives à l'historique lors de la définition d'une colonne "Date de début"

Si l'historique des données est activé dans une tâche en aval et si vous utilisez une colonne "Date de début", l'antidatage n'est pas supporté. Cela signifie que si un lot de modifications contient une version plus ancienne d'un enregistrement qui n'existe pas en stockage, le lot de modifications doit également inclure l'ensemble des versions plus récentes de l'enregistrement. Si les versions plus récentes ne sont pas incluses, elles seront supprimées.

Dans ces exemples, le stockage contient ces enregistrements depuis le début :

Date de début	Nom	Ville
2/Oct/2023	Joe	New York
3/Oct/2023	Joe	Londres

Si vous insérez le lot de modifications suivant :

Date de début	Nom	Ville
4/Oct/2023	Joe	Paris

Le résultat dans le stockage est, comme prévu :

Date de début	Nom	Ville
2/Oct/2023	Joe	New York
3/Oct/2023	Joe	Londres
4/Oct/2023	Joe	Paris

En revanche, si vous insérez l'enregistrement plus ancien suivant dans un lot de modifications :

Date de début	Nom	Ville
1/Oct/2023	Joe	Berlin

Cela retire les enregistrements plus récents du stockage :

Date de début	Nom	Ville
1/Oct/2023	Joe	Berlin

Pour conserver l'historique, il faut que le lot de modifications comprenne les enregistrements plus récents :

Date de début	Nom	Ville
1/Oct/2023	Joe	Berlin
2/Oct/2023	Joe	New York
3/Oct/2023	Joe	Londres

Cela garantit la conservation de l'historique en stockage également :

Date de début	Nom	Ville
1/Oct/2023	Joe	Berlin
2/Oct/2023	Joe	New York
3/Oct/2023	Joe	Londres

Considérations

N'utilisez pas l'option d'historique de la réplication Stitch. Utilisez les options permettant de conserver les données historiques dans Qlik Talend Data Integration.
Les colonnes utilisant l'un des types de données VARIANT, JSON et SUPER seront converties au format JSON.
Data Movement gateway 2024.11.78 ou une version supérieure est requis pour découvrir le type de données JSON si vous utilisez une passerelle client-managed.

Considérations en matière de capacité de données

Si une table enregistrée n'a pas de clé primaire, un chargement complet sera réalisé à chaque exécution. Cela sera comptabilisé dans votre quota de capacité de données enregistrées mensuel. Cela est dû au fait que le stockage devra comparer tous les enregistrements pour trouver les modifications.
La capacité de données des données enregistrées est comptée dans le stockage. Cela signifie qu'une suppression dans les données enregistrées se traduit par une insertion ou une mise à jour du stockage (une suppression réversible) et est comptée dans la capacité de données.
Les suppressions, insertions et mises à jour réversibles seront comptées deux fois dans la capacité de données si une table de données enregistrées est utilisée dans deux tâches de données de stockage.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici