Enregistrement de données qui existent déjà sur la plateforme de données
Vous pouvez enregistrer les données qui existent déjà sur la plateforme de données pour organiser et transformer les données et créer des mini-data warehouses. Cela vous permet d'utiliser des données intégrées à d'autres outils que Qlik Talend Data Integration, par exemple, Qlik Replicate ou Stitch.
Lorsque vous enregistrez des données, deux tâches de données sont créées.
-
Données enregistrées
L'enregistrement des données implique la création de vues pour préparer les données à la création d'ensembles de données.
-
Stockage
Cela implique la génération et le stockage d'ensembles de données basés sur les données enregistrées.
Lorsque vous avez enregistré les données, vous pouvez utiliser les ensembles de données générés de plusieurs manières.
-
Vous pouvez utiliser les ensembles de données dans une application analytique.
-
Vous pouvez créer des transformations.
-
Vous pouvez créer un mini-data warehouse
Enregistrer les données
Vous pouvez enregistrer des données qui existent dans l'entrepôt de données cloud défini dans le projet. Les ensembles de données générés seront stockés dans le même entrepôt de données cloud.
Pour plus d'informations sur les projets, consultez Création d'un pipeline de données.
-
Cliquez sur Ajouter nouveau, puis sur Enregistrer les données dans un projet.
-
Ajoutez un Nom et une Description pour la tâche de données.
Cliquez sur Suivant.
-
Sélectionnez les données à enregistrer.
Sélection de données à inclure
Cliquez sur Suivant.
La boîte de dialogue Paramètres apparaît.
-
Sélectionnez le mode de mise à jour des données dans Méthode de mise à jour.
Sélectionnez Incrémentiel via limite supérieure si les données sont répliquées via Qlik Replicate ou Stitch.
-
Utilisez Incrémentiel via limite supérieure pour traiter les modifications de données de manière incrémentielle via un modèle de limite supérieure. Il s'agit de la méthode suggérée si les données sont répliquées par Qlik Replicate (avec Chargement complet et stockage des modifications activé) ou Stitch.
Pour plus d'informations, consultez Méthode de mise à jour.
-
Utilisez Comparer au stockage existant lorsque les données ont été chargées une seule fois ou si elles sont mises à jour via des chargements complets.
-
-
Prévisualisez les deux tâches de données créées dans Récapitulatif et renommez-les, si vous préférez.
Note ConseilLes noms sont utilisés lors du nommage des schémas de base de données dans la ressource de données de stockage. Un schéma ne pouvant être associé qu'à une seule tâche, pensez à employer des noms uniques pour éviter tout conflit avec les tâches de données d'autres projets utilisant la même plateforme de données. -
Indiquez si vous souhaitez ouvrir la tâche de données enregistrée ou revenir au projet.
Lorsque vous êtes prêt(e), cliquez sur Terminer.
Les deux tâches de données sont maintenant créées. Pour commencer la réplication des données, vous devez :
-
Préparez la tâche de données enregistrée.
Cliquez sur Préparer dans la tâche de données.
Lorsque des artefacts ont été créés, l'état de la tâche de données est Enregistré.
-
Préparer et exécuter la tâche de données de stockage.
Pour plus d'informations, consultez Stockage de jeux de données
Sélection de données à inclure
Lorsque vous sélectionnez des données à inclure, vous pouvez sélectionner certaines tables ou vues, ou utiliser des règles de sélection pour inclure ou exclure des groupes de tables.
Utilisez % comme caractère générique pour définir des critères de sélection pour les schémas et les tables.
-
%.% définit toutes les tables de tous les schémas.
-
Public.% définit toutes les tables du schéma Public.
Critères de sélection vous fournit un aperçu selon vos sélections.
Vous pouvez effectuer l'une des deux opérations suivantes :
-
Créez une règle pour inclure ou exclure un groupe de tables en fonction des critères de sélection.
Cliquez sur Ajouter une règle à partir des critères de sélection pour créer une règle, puis sélectionnez Inclure ou Exclure.
Vous pouvez voir la règle sous Règles de sélection.
-
Sélectionnez un ou plusieurs ensembles de données, puis cliquez sur Ajouter les ensembles de données sélectionnés.
Vous pouvez voir les ensembles de données ajoutés sous Ensembles de données sélectionnés de manière explicite.
Les règles de sélection ne s'appliquent qu'à l'ensemble actuel de tables et de vues, et non aux tables et aux vues ajoutées après.
Actualisation des métadonnées
Vous pouvez actualiser les métadonnées de la tâche pour les aligner sur les modifications apportées aux métadonnées de la source dans la vue Conception d'une tâche. Pour les applications SaaS qui utilisent Metadata manager, il convient d'actualiser Metadata manager avant de pouvoir actualiser les métadonnées de la tâche de données.
-
Vous pouvez effectuer l'une des opérations suivantes :
-
Cliquez sur ..., puis sur Actualiser les métadonnées pour actualiser les métadonnées de la totalité des jeux de données de la tâche.
-
Cliquez sur ... sur un jeu de données dans Jeux de données, puis sur Actualiser les métadonnées pour actualiser les métadonnées d'un seul jeu de données.
Vous pouvez afficher le statut de l'actualisation des métadonnées sous Actualiser les métadonnées dans la partie inférieure de l'écran. Vous pouvez voir à quel moment les métadonnées ont été actualisées pour la dernière fois en survolant à l'aide du curseur.
-
-
Préparez la tâche de données de sorte à appliquer les modifications.
Une fois la tâche de données préparée et les modifications appliquées, les modifications sont supprimées de Actualiser les métadonnées.
Pour pouvoir propager les modifications, vous devez préparer des tâches de stockage qui consomment cette tâche.
Si une colonne est retirée, une transformation avec des valeurs Null est ajoutée pour garantir que le stockage ne perdra pas de données historiques.
Limitations
-
Un renommage avec une colonne abandonnée avant cela, dans le même laps de temps, sera traduit en renommage de la colonne abandonnée si elles ont le même type de données et la même longueur de données.
Avant : a b c d
Après : a c1 d
Dans cet exemple, la colonne b a été abandonnée et la colonne c a été renommée c1, et b et c ont le même type de données et la même longueur de données.
Cela sera identifié comme le renommage de la colonne b en c1 et un abandon de la colonne c.
-
Le renommage de la dernière colonne n'est pas reconnu, même si la dernière colonne a été abandonnée et celle d'avant a été renommée.
Avant : a b c d
Après : a b c1
Dans cet exemple, la colonne d a été abandonnée et la colonne c a été renommée c1.
Cela sera identifié comme un abandon de la colonne c et de la colonne d et un ajout de la colonne c1.
-
Les nouvelles colonnes sont supposées être ajoutées à la fin. Si les colonnes sont ajoutées au milieu avec le même type de données que celui de la colonne suivante, elles peuvent être interprétées comme un abandon et un renommage.
Paramètres de données enregistrés
Vous pouvez définir des propriétés pour la tâche de données enregistrée.
-
Cliquez sur Paramètres.
Paramètres généraux
-
Base de données
Base de données à utiliser dans la cible.
-
Schéma de tâche
Vous pouvez modifier le nom du schéma de la tâche de données.
- Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique.
Méthode de mise à jour
Détection des modifications
-
Utilisez Comparer au stockage existant lorsque les données ont été chargées une seule fois ou si elles sont mises à jour via des chargements complets.
-
Utilisez Incrémentiel via limite supérieure pour traiter les modifications de données de manière incrémentielle via la méthode de limite supérieure.
Cette option nécessite que toutes les tables disposent d'une clé primaire définie. Vous pouvez définir une clé primaire manuellement dans la vue Ensembles de données pour les tables auxquelles il manque une clé primaire.
Paramètres de chargement incrémentiel
Ces paramètres sont disponibles lorsque l'option Incrémentiel via limite supérieure est sélectionnée.
-
Si les données sont répliquées par une tâche Qlik Replicate avec Chargement complet et stockage des modifications, réglez Paramètres de chargement incrémentiel sur Qlik ReplicateParamètres.
-
Si les données sont répliquées par un pipeline de données Stitch, et si vos tables sources ont une clé primaire définie, définissez Paramètres de chargement incrémentiel sur Paramètres par défaut Stitch.
-
Sinon, définissez Paramètres de chargement incrémentiel sur Personnalisés et définissez les paramètres vous-même.
Paramètre | Personnalisé | Paramètres Qlik Replicate | Paramètres par défaut Stitch |
---|---|---|---|
Tables de modifications |
Si les modifications figurent dans la même table, sélectionnez Les modifications figurent dans la même table. Sinon, décochez Les modifications figurent dans la même table et spécifiez un modèle de table de modifications dans Modèle de table de modifications. |
${SOURCE_TABLE_NAME}__ct table | Les modifications figurent dans la même table. |
Colonne de limite supérieure | Indiquez le nom de la colonne de limite supérieure dans Nom. | header__change_seq | _SDC_BATCHED_AT |
Colonne "Date de début" |
Vous pouvez définir la "Date de début" via l'heure de début de lot ou via une colonne sélectionnée. Si vous sélectionnez Colonne "Date de début" sélectionnée, vous devez définir un Modèle "Date de début". |
header__timestamp | _SDC_BATCHED_AT
Vous pouvez remplacer cela pour indiquer la "Date de début" via l'heure de début de lot ou en sélectionnant une autre colonne. |
Suppressions réversibles |
Vous pouvez inclure des suppressions réversibles dans les modifications en sélectionnant Les modifications incluent des suppressions réversibles et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la modification est une suppression réversible. Exemple : ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Vous pouvez inclure des suppressions réversibles dans les modifications en sélectionnant Les modifications incluent des suppressions réversibles et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la modification est une suppression réversible. Exemple : ${is_deleted} = 1 |
Image d'avant |
Vous pouvez filtrer les enregistrements d'images d'avant dans les modifications des tables de modifications en sélectionnant Image d'avant et en définissant une expression d'indication. L'expression d'indication doit être évaluée sur true si la ligne contient l'image précédent la mise à jour. Exemple : ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Il n'existe aucun enregistrement d'image d'avant dans les données. |
Paramètres du catalogue
-
Publier dans le catalogue
Sélectionnez cette option pour publier cette version des données dans Catalogue sous forme d'ensemble de données. Le contenu de Catalogue sera mis à jour la prochaine fois que vous préparerez cette tâche.
Pour plus d'informations sur Catalogue, consultez Comprendre vos données grâce à des outils de catalogage.
Configuration Qlik Replicate recommandée
Ces paramètres de tâche Qlik Replicate sont recommandés lors de l'enregistrement de données répliquées via une tâche Qlik Replicate stockant les modifications.
-
La tâche Qlik Replicate doit être configurée via les options Chargement complet et Stocker les modifications.
-
Dans Stocker les paramètres de modification > Tables de modifications, assurez-vous que les colonnes de table de modifications suivantes sont incluses, via leurs noms par défaut :
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
Dans Stocker les paramètres de modification > Tables de modifications, définissez Sur UPDATE sur Stocker l'image d'après uniquement.
Cela réduit l'espace occupé par chaque mise à jour, en excluant l'image d'avant. Si vous ne planifiez pas d'utiliser l'image d'avant, utilisez cette option.
-
Dans Stocker les paramètres de modification > Tables de modifications, définissez Suffixe sur la valeur par défaut __ct.
-
N'appliquez pas les transformations globales suivantes :
-
Renommer la table de modifications
-
Renommer le schéma de la table de modifications
-
-
Si une clé primaire d'une table source peut être mise à jour, activez DELETE et INSERT lors de la mise à jour d'une option de colonne de clé primaire dans Réglage du traitement des modifications.
L'historique de l'ancien enregistrement ne sera pas préservé dans le nouvel enregistrement.
Note InformationsCette option est supportée depuis Qlik Replicate November 2022.
Opérations sur la tâche de données enregistrée
Vous pouvez effectuer les opérations suivantes sur une tâche de données enregistrée depuis le menu Tâches.
-
Ouvrir
Cela ouvre la tâche de données. Vous pouvez afficher la structure des tables et les détails de la tâche de données.
-
Modifier
Vous pouvez modifier le nom et la description de la tâche et ajouter des balises.
-
Supprimer
Vous pouvez supprimer la tâche de données.
Les données source ne sont pas supprimées.
- Synchroniser les ensembles de données
Cette option permet de synchroniser les changements de conception qui ne peuvent pas être adaptés automatiquement.
-
Recréer les tables
Cette option permet de recréer les ensembles de données depuis la source.
-
Stocker les données
Vous pouvez créer une tâche de données de stockage qui utilise des données provenant de cette tâche de données de dépôt temporaire.
Considérations relatives à l'historique lors de la définition d'une colonne "Date de début"
Si l'historique des données est activé dans une tâche en aval et si vous utilisez une colonne "Date de début", l'antidatage n'est pas supporté. Cela signifie que si un lot de modifications contient une version plus ancienne d'un enregistrement qui n'existe pas en stockage, le lot de modifications doit également inclure l'ensemble des versions plus récentes de l'enregistrement. Si les versions plus récentes ne sont pas incluses, elles seront supprimées.
Dans ces exemples, le stockage contient ces enregistrements depuis le début :
Date de début | Nom | Ville |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | Londres |
Si vous insérez le lot de modifications suivant :
Date de début | Nom | Ville |
---|---|---|
4/Oct/2023 | Joe | Paris |
Le résultat dans le stockage est, comme prévu :
Date de début | Nom | Ville |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | Londres |
4/Oct/2023 | Joe | Paris |
En revanche, si vous insérez l'enregistrement plus ancien suivant dans un lot de modifications :
Date de début | Nom | Ville |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Cela retire les enregistrements plus récents du stockage :
Date de début | Nom | Ville |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Pour conserver l'historique, il faut que le lot de modifications comprenne les enregistrements plus récents :
Date de début | Nom | Ville |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | Londres |
Cela garantit la conservation de l'historique en stockage également :
Date de début | Nom | Ville |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | Londres |
Considérations
-
N'utilisez pas l'option d'historique de la réplication Stitch. Utilisez les options permettant de conserver les données historiques dans Qlik Talend Data Integration.
Considérations en matière de capacité de données
-
Si une table enregistrée n'a pas de clé primaire, un chargement complet sera réalisé à chaque exécution. Cela sera comptabilisé dans votre quota de capacité de données enregistrées mensuel. Cela est dû au fait que le stockage devra comparer tous les enregistrements pour trouver les modifications.
-
La capacité de données des données enregistrées est comptée dans le stockage. Cela signifie qu'une suppression dans les données enregistrées se traduit par une insertion ou une mise à jour du stockage (une suppression réversible) et est comptée dans la capacité de données.
-
Les suppressions, insertions et mises à jour réversibles seront comptées deux fois dans la capacité de données si une table de données enregistrées est utilisée dans deux tâches de données de stockage.