Gestion des jeux de données

Vous pouvez gérer les jeux de données inclus dans les tâches de données Dépôt temporaire, Stockage, Transformation, Mini-data warehouse et Réplication pour créer des transformations, filtrer les données et ajouter des colonnes.

Les jeux de données inclus sont répertoriés sous Jeux de données dans la vue Conception. Vous pouvez sélectionner les colonnes à afficher grâce au sélecteur de colonnes ().

Jeux de données dans la vue Conception d'une tâche de données

Règles de transformation et transformations explicites

Vous pouvez effectuer des transformations globales et explicites.

Règles de transformation

Vous pouvez effectuer des transformations globales en créant une règle de transformation qui utilise % comme caractère générique dans l'étendue pour permettre son application dans tous les jeux de données correspondants.

Cliquez sur Règles puis sur Ajouter une règle pour créer une règle de transformation.

Pour plus d'informations, consultez Création de règles pour transformer des jeux de données.

Les règles de transformation sont indiquées par un coin violet foncé sur l'attribut affecté.

Transformations explicites

Des transformations explicites sont créées :

lorsque vous utilisez Modifier pour changer un attribut de colonne ;
lorsque vous utilisez Renommer dans un jeu de données ;
lorsque vous ajoutez une colonne.

Les transformations explicites remplacent les transformations globales et elles sont indiquées par un coin violet clair sur l'attribut affecté.

Modèles de jeu de données

Les jeux de données peuvent être basés sur la source ou sur la cible, suivant le type de tâche et les opérations de la tâche. Le modèle de jeu de données utilisé affecte le comportement du pipeline lors des modifications de la source et les opérations que vous pouvez effectuer.

Jeux de données basés sur la source

Le jeu de données est basé sur des jeux de données sources et ne contiendra que les modifications apportées aux métadonnées. Une modification des données sources est automatiquement appliquée, ce qui peut entraîner des modifications dans toutes les tâches en aval. Il n'est pas possible de modifier l'ordre des colonnes ni de modifier le jeu de données source.

Les types de tâche suivants utilisent toujours un modèle de jeu de données basé sur la source : Dépôt temporaire, Stockage, Données enregistrées, Réplication et Dépôt temporaire dans un lac de données.
Jeux de données basés sur la cible

Le jeu de données est basé sur les métadonnées cibles. Si une colonne est ajoutée depuis la source, ou si elle est retirée, cette modification n'est pas automatiquement appliquée à la tâche en aval suivante. Vous pouvez modifier l'ordre des colonnes et le jeu de données source. Cela signifie que la tâche est plus autonome et qu'elle vous permet de contrôler l'effet des modifications apportées à la source.

Les types de tâche suivants peuvent utiliser un modèle de jeu de données basé sur la cible : Transformer, Mini-data warehouse. Dans certains cas, un modèle basé sur la source est utilisé pour les tâches Transformer en fonction de l'opération.
- Si un flux de transformation ou une transformation SQL effectue une sélection de colonne, le jeu de données sera basé sur la cible. Par exemple, si vous utilisez SELECT A, B, C from XYZ dans une transformation SQL, ou si vous utilisez le processeur Sélectionner des colonnes dans un flux de transformation.
- Si les colonnes par défaut sont conservées, le jeu de données est basé sur la source. Par exemple, si vous utilisez SELECT * from XYZ dans une transformation SQL.

Mise à jour des projets d'un modèle basé sur la source vers un modèle basé sur la cible

Les projets existants sont mis à jour en fonction du modèle de jeu de données basé sur la cible, le cas échéant. Nous vous guiderons tout au long du processus de mise à jour lors de la première ouverture d'un projet. Certaines considérations doivent être prises en compte lors de l'import et de l'export de projets avec des modèles de jeu de données différents.

Il n'est pas possible d'importer un projet dont le modèle est basé sur la source dans un projet dont le modèle est basé sur la cible.

Importez le projet avec un modèle basé sur la source dans un nouveau projet, mettez le nouveau projet à jour, puis exportez le projet obtenu. Vous pouvez ensuite réimporter ce projet dans le projet avec un modèle basé sur la cible.
Il n'est pas possible d'importer un projet dont le modèle est basé sur la cible dans un projet dont le modèle est basé sur la source.

Mettez le projet à jour vers un modèle basé sur la cible avant d'importer un projet avec un modèle basé sur la cible.

Filtrage d'un jeu de données

La possibilité de filtrer un jeu de données est disponible pour les tâches de données Dépôt temporaire qui déposent temporairement des données via des tâches de données Qlik Data Gateway - Data Movement, Stockage et Transformation.

Vous pouvez filtrer des données pour créer un sous-ensemble de lignes, si nécessaire.

Cliquez sur Filtrer.

Pour plus d'informations, consultez Filtrage d'un jeu de données.

Renommer un jeu de données

Vous pouvez renommer un jeu de données.

Cliquez sur sur un jeu de données, puis sur Modifier.

Ajout de colonnes

Vous pouvez ajouter des colonnes avec des transformations au niveau de la ligne, si nécessaire.

Cliquez sur Ajouter une colonne.

Pour plus d'informations, consultez Ajout de colonnes à un jeu de données.

Modifier une colonne

Vous pouvez modifier les propriétés de colonne en sélectionannt une colonne et en cliquant sur Modifier.

Nom
Clé

Définissez une colonne comme clé primaire. Vous pouvez également définir des clés en sélectionnant ou désélectionnant la colonne Clé.
Peut être nul
Type de données

Définissez le type de données de la colonne. Pour certains types de données, vous pouvez définir une propriété supplémentaire, par exemple Longueur.

Familiarisation avec l'impact de la modification d'un type de données

Il existe deux cas d'utilisation courants pour la modification de la taille du type de données ou le passage à un type de données différent :

Une ingestion de données qui ne tiendra pas dans le type de données actuel.
Le besoin d'une plus grande exactitude numérique. Par exemple, le remplacement de SMALLINT par DECIMAL (p,s).

Dans la plupart des cas, la modification d'un type de données entraînera une opération ALTER TABLE, empêchant ainsi toute perte de données. Par exemple, si le type de données précédent était STRING (25) et si le nouveau type de données est STRING (50), les données de la colonne avec le nouveau type de données seront mises à jour sans aucun problème. En revanche, dans certains cas, la modification d'un type de données entraînera l'exclusion et la recréation du tableau. Par exemple, si le type de données précédent d'une colonne est NUMBER et si vous le remplacez par DATE, le tableau est ignoré et recréé, car il n'est pas possible de convertir des nombres en dates. De même, si la plateforme cible (comme Databricks) ne supporte pas les opérations ALTER TABLE, le tableau sera ignoré et recréé.

Dans certains cas, il est théoriquement possible d'altérer un tableau, mais, en raison de la complexité sous-jacente, la tâche de données ignorera et recréera le tableau. Pour finir, dans certains cas, la perte de données potentielle et non la perte de données réelle déclenchera une opération d'abandon et de recréation. Par exemple, si vous remplacez STRING(25) par STRING(1), il se produira une perte de données si les données ingérées ne tiennent pas dans STRING(1). Cependant, il est possible que STRING(25) contienne toujours un seul caractère. Par conséquent, dans la pratique, il ne se produira aucune perte de données, mais le tableau sera tout de même ignoré et recréé en raison d'une perte de données potentielle.

Modifications apportées aux types de données qui nécessitent que le tableau soit ignoré et recréé, quelle que soit la plateforme cible

La modification des types de données suivants entraînera l'abandon et la recréation du tableau :

BYTES
BLOB
CLOB
NCLOB

Plateformes cibles qui supportent les modifications apportées à la taille de type de données sans ignorer et recréer le tableau

Si vous utilisez Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server et Azure Synapse Analytics, vous pouvez modifier la taille de certains types de données sans entraîner l'abandon et la recréation du tableau. Le tableau suivant répertorie les types de données supportés pour chacune des plateformes susmentionnées.

Type de données	Snowflake	Google BigQuery	Azure Synapse Analytics	Microsoft SQL Server	Amazon Redshift
INT1	Non	Oui	Oui	Oui	Non
INT2	Non	Oui	Oui	Oui	Non
INT4	Non	Oui	Oui	Oui	Non
INT8	Non	Oui	Oui	Oui	Non
REAL4	Non	Non	Oui	Oui	Non
REAL8	Non	Non	Oui	Oui	Non
UINT1	Non	Oui	Oui	Oui	Non
UINT2	Non	Oui	Oui	Oui	Non
UNIT4	Non	Oui	Oui	Oui	Non
UNIT8	Non	Oui	Oui	Oui	Non
NUMERIC	Oui	Oui	Oui	Oui	Non
Chaîne de caractères	Oui	Oui	Oui	Oui	Oui
WSTRING	Non	Oui	Oui	Oui	Non

Plateformes cibles qui supportent le remplacement des types de données par STRING sans ignorer et recréer le tableau

Lors du déplacement de données vers Microsoft SQL Server et Azure Synapse Analytics, vous pouvez remplacer les types de données suivants par STRING sans entraîner l'abandon et la recréation du tableau :

BOOLEAN
DATE
TIME
DATETIME
INT1
INT2
INT4
INT8
REAL4
REAL8
UINT1
UINT2
UNIT4
UNIT8
NUMERIC
WSTRING (supporté avec Azure Synapse Analytics uniquement)

Suppression de colonnes

Vous pouvez supprimer une ou plusieurs colonnes d'un jeu de données.

Sélectionnez les colonnes à supprimer et cliquez sur Supprimer.

Si vous voulez voir les colonnes supprimées, cliquez sur Afficher les colonnes supprimées. Les colonnes supprimées sont indiquées par un texte barré. Pour récupérer une colonne supprimée, sélectionnez-la et cliquez sur Rétablir.

Pour supprimer une colonne ajoutée, sélectionnez-la et cliquez sur Rétablir.

Rétablissement des changements explicites dans les colonnes

Vous pouvez rétablir tous les changements explicites dans une ou plusieurs colonnes.

Sélectionnez les colonnes dans lesquelles vous voulez rétablir les changements et cliquez sur Rétablir.

Les changements provenant de règles de transformation globales ne sont pas rétablies.

Si vous annulez une colonne ajoutée, elle est supprimée.

Paramètres du jeu de données

Vous pouvez modifier les paramètres du jeu de données. Le paramètre par défaut consiste à reprendre le paramètre de la ressource de données. Toutefois, vous pouvez également modifier un paramètre pour qu'il ait explicitement la valeur Activé ou Désactivé.

Cliquez sur au niveau d'un jeu de données puis sur Paramètres.

Visualisation des données

Vous pouvez afficher un échantillon des données pour voir et valider la forme de vos données à mesure que vous concevez votre pipeline de données.

Les conditions suivantes doivent être remplies :

L'affichage des données est activé au niveau client dans Administration.

Activez Paramètres > Contrôle de fonction > Affichage des données dans Intégration de données.
Vous êtes titulaire du rôle Peut afficher des données dans l'espace dans lequel réside la connexion.
Vous êtes titulaire du rôle Accès en lecture dans l'espace dans lequel réside le projet.

Lors de la création de projets et de connexions dans un espace personnel, le propriétaire peut toujours voir les données.

Pour afficher un échantillon de données dans l'onglet Jeux de données de la vue Conception :

Cliquez sur Afficher les données dans Objets physiques.

Un échantillon des données apparaît. Vous pouvez définir le nombre de lignes de données à inclure dans l'échantillon dans Nombre de lignes.

Pour passer des jeux de données à des tables :

Sélectionnez Jeux de données pour afficher la représentation logique des données.
Sélectionnez Objets physiques pour afficher la représentation physique dans la base de données sous forme de tables et de vues.

Note ActualitésCette option n'est pas disponible si la représentation physique n'a pas encore été créée.

Vous pouvez filtrer l'échantillon de données de deux manières différentes :

Utilisez pour filtrer l'échantillon de données à récupérer.

Par exemple, si vous appliquez le filtre ${OrderYear}>2023 et si Nombre de lignes est défini sur 10, vous obtiendrez un échantillon de 10 commandes en 2024.
Filtrez l'échantillon de données en fonction d'une colonne spécifique.

Cela affectera uniquement l'échantillon de données existant. Si vous avez utilisé pour inclure uniquement des commandes de 2024 et si vous avez défini le filtre de colonne pour afficher des commandes de 2022, vous obtiendrez un échantillon vide.

Vous pouvez également trier l'échantillon de données en fonction d'une colonne spécifique. Le tri affectera uniquement l'échantillon de données existant. Si vous avez utilisé filtre pour inclure uniquement des commandes de 2024 et si vous inversez l'ordre de tri, l'échantillon de données continuera à ne contenir que des commandes de 2024.

Vous pouvez masquer des colonnes dans la vue des données :

Masquez une seule colonne en cliquant sur sur la colonne, puis sur Masquer colonne.
Masquez plusieurs colonnes en cliquant sur sur n'importe quelle colonne, puis sur Afficher les colonnes. Cela vous permet de contrôler la visibilité de l'ensemble des colonnes de la vue.

Validation et ajustement des jeux de données

Vous pouvez valider tous les jeux de données inclus dans la tâche de données.

Développez Valider et ajuster pour voir toutes les erreurs de validation et les changements de conception.

Validation des jeux de données

Cliquez sur Valider les jeux de données pour valider les jeux de données.

La validation implique de vérifier que :

Toutes les tables ont une clé primaire.
Il ne manque pas d'attributs.
Il n'y a pas de doublons de nom de table ou de colonne.

Vous obtenez également une liste des modifications apportées à la conception par rapport à la source :

Tables et colonnes ajoutées
Tables et colonnes abandonnées
Tables et colonnes renommées
Clés primaires et types de données modifiés

Développez Valider et ajuster pour voir toutes les erreurs de validation et les changements de conception.

Corrigez les erreurs de validation puis validez à nouveau les jeux de données.
L’adaptation de la plupart des changements de conception peut s'effectuer automatiquement, sauf pour les clés primaires et les types de données modifiés. Dans ce cas, vous devez synchroniser les jeux de données.

Préparation des jeux de données

Vous pouvez préparer les ensembles données pour ajuster les changements de conception sans perte de données, si possible. En cas de changements de conception impossibles à ajuster sans perte de données, vous aurez la possibilité de recréer les tables à partir de la source avec perte de données.

Cette opération implique l'arrêt de la tâche.

Cliquez sur , puis sur Préparer.

Une fois les jeux de données préparés, validez-les avant de redémarrer la tâche de stockage.

Recréation des jeux de données

Vous pouvez recréer les jeux de données depuis la source. Lorsque vous recréez un jeu de données, cela entraînera une perte de données. Si vous avez les données source, vous pouvez les charger depuis la source.

En cas de problèmes avec des tables individuelles, il est recommandé de commencer par tenter d'actualiser les tables au lieu de les recréer. La recréation des tables peut entraîner une perte de données historiques. En cas de modifications importantes, vous devez également préparer les tâches de données en aval qui consomment les tâches de données recréées pour actualiser les données.

Cette opération implique l'arrêt de la tâche.

Cliquez sur , puis sur Recréer les tables.

Limitations

Dans Google BigQuery, la suppression ou l'attribution d'un nouveau nom à une colonne implique la recréation de la table et entraîne la perte des données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici