Transformation des données
Vous pouvez créer des transformations de données réutilisables et basées sur des règles dans le cadre de votre pipeline de données. Vous pouvez effectuer des transformations dans le cadre de votre intégration de données, ou créer des tâches de données de transformation réutilisables. Vous pouvez effectuer des transformations au niveau des lignes et créer des ensembles de données qui sont soit matérialisés comme des tables, soit créés comme des vues qui effectuent des transformations à la volée.
-
Vous pouvez effectuer des transformations explicites par ensemble de données, ou créer des règles globales qui transforment plusieurs ensembles de données. Vous pouvez également filtrer un ensemble de données pour créer un sous-ensemble de lignes.
-
Vous pouvez ajouter des transformations SQL.
Création d'une tâche de données de transformation
Le plus facile, pour créer une tâche de données de transformation, consiste à cliquer sur ... sur une tâche de données de stockage, puis à sélectionner Transformer les données.
Vous pouvez également cliquer sur Ajouter nouveau dans un projet de données et sélectionner Transformer les données. Dans ce cas, vous devez définir la tâche de données source à utiliser.
-
Définissez vos données source dans Transformer l'ensemble de données.
Sélectionnez des ensembles de données sources, puis cliquez sur Ajouter pour les ajouter à Cible.
Vous pouvez ajouter une transformation SQL en sélectionnant un ensemble de données, puis en cliquant sur Ajouter un ensemble de données basé sur SQL.
Note ConseilVous pouvez également ajouter davantage d'ensembles de données provenant d'autres ressources de données de stockage en cliquant sur Sélectionner des données source. -
Apportez toutes les modifications nécessaires aux ensembles de données inclus, telles que des transformations, le filtrage des données et l'ajout de colonnes.
Pour plus d'informations, voir Gestion des ensembles de données.
-
Lorsque vous avez ajouté les transformations souhaitées, validez les ensembles de données en cliquant sur Valider les ensembles de données. Si la validation détecte des erreurs, corrigez-les avant de poursuivre.
Pour plus d'informations, voir Validation et ajustement des ensembles de données.
-
Créer un modèle de données
Cliquez sur Modèle pour définir les relations entre les ensembles de données inclus.
Pour plus d'informations, voir Création d'un modèle de données.
-
Cliquez sur Préparer pour préparer la tâche de données et tous les artefacts nécessaires. Cette opération peut prendre un certain temps.
Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
-
Lorsque l'état affiche Préparé, vous pouvez exécuter la tâche de données.
Cliquez sur ..., puis sur Exécuter.
La tâche de données commence maintenant la création des ensembles de données pour transformer les données.
Ajout de transformations SQL
Vous pouvez inclure des transformations SQL dans des tâches de transformation. Une transformation SQL vous permet de saisir une requête SQL SELECT dans un pipeline pour définir des transformations simples ou complexes.
-
Dans Transformer l'ensemble de données, sélectionnez les ensembles de données à inclure dans la requête, puis cliquez sur Ajouter une transformation SQL.
Pour plus d'informations, voir Ajout de transformations SQL.
Planification d'une tâche de transformation
Vous pouvez planifier la mise à jour périodique d'une tâche de transformation. Vous pouvez définir une planification à intervalle défini ou définir la tâche de sorte qu'elle soit exécutée à la fin de l'exécution de tâches de données d'entrée.
Cliquez sur ... sur une tâche de données et sélectionnez Planification pour créer une planification. Les paramètres de planification par défaut sont hérités des paramètres du projet de données. Pour plus d'informations sur les paramètres par défaut, voir Valeurs par défaut de transformation.
Pour activer la planification, vous devez toujours définir Planification sur Activée.
Planifications à intervalles définis
Vous pouvez utiliser une planification à intervalle défini pour exécuter la tâche, quel que soit le moment de la mise à jour des différentes sources d'entrée.
-
Sélectionnez À une heure spécifique dans Exécuter la tâche de données.
Vous pouvez définir une planification horaire, quotidienne, hebdomadaire ou mensuelle.
Planifications basées sur des événements
Vous pouvez utiliser une planification basée sur un événement pour exécuter la tâche à la fin de l'exécution de tâches de données d'entrée.
-
Sélectionnez Lors d'un événement spécifique dans Exécuter la tâche de données.
Vous pouvez décider d'exécuter la tâche lorsque n'importe laquelle des tâches d'entrée a été correctement exécutée ou lorsque n'importe quelle tâche d'entrée d'une sélection de tâches d'entrée a été correctement exécutée.
Surveillance d'une tâche de transformation
Vous pouvez surveiller l'état et la progression d'une tâche de transformation en cliquant sur Surveiller.
Pour plus d'informations, voir Surveillance d'une tâche de données individuelle.
Chargement de données
Vous pouvez effectuer un chargement manuel des tables si les données sont matérialisées sous forme de tables physiques. Cela s'avère utile en cas de problèmes avec une ou plusieurs tables. Si les ensembles de données ne sont pas matérialisés, vous devez charger les ensembles de données sources dans la tâche de données en amont pour actualiser les données.
-
Ouvrez la tâche de données et sélectionnez l'onglet Surveiller.
-
Sélectionnez les tables à charger.
-
Cliquez sur Charger des tables.
Le chargement se produira lors de la prochaine exécution de la tâche. Le processus de chargement se comporte différemment suivant le paramètre d'historique et le type de transformation de chaque ensemble de données. Cela signifie que le processus de chargement peut varier d'un ensemble de données à l'autre dans une tâche de données.
Vous pouvez annuler le chargement des tables en attente de chargement en cliquant sur Annuler le chargement. Cela n'affectera pas les tables déjà chargées, et les chargements en cours d'exécution seront effectués jusqu'au bout.
Les tâches en aval seront actualisées de sorte à appliquer les modifications et à éviter un antidatage. Cela s'effectue comme suit :
-
Réalisation d'une comparaison avec le chargement complet et application des modifications.
-
Application des modifications apparues après le chargement.
Chargement d'un ensemble de données sans historique
Dans ce cas, il n'existe pas d'historique à prendre en compte. Pour réduire le traitement sur la cible, le chargement s'effectue comme suit :
-
Troncage des tables.
-
Chargement des données en cours provenant de la tâche de données en amont.
Les tâches en aval seront actualisées de sorte à appliquer les modifications.
Chargement d'un ensemble de données avec l'historique activé
Le chargement s'effectue comme suit :
-
Troncage des tables en cours, précédentes et de modifications.
-
Chargement des données auprès de la tâche de données en amont, y compris les tables précédentes.
Chargement d'un ensemble de données en fonction d'une transformation SQL
-
Tronquer et charger
Note InformationsCette option risque d'entraîner une perte d'historique.-
Troncage des tables en cours et de modifications.
-
Exécution de la requête et son chargement dans les tables en cours.
-
-
Charger et comparer
-
Exécution de la requête et sa comparaison aux tables en cours.
-
Ajout des modifications.
-
Paramètres de transformation
Vous pouvez définir des propriétés pour la tâche de données de transformation.
-
Cliquez sur Paramètres.
Paramètres généraux
-
Base de données
Base de données à utiliser dans la source de données.
-
Schéma de tâche de données
Vous pouvez modifier le nom du schéma de tâche de données de stockage. Le nom par défaut est store.
-
Schéma interne
Vous pouvez modifier le nom du schéma de stockage interne. Le nom par défaut est store__internal.
- Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique. -
Matérialisé
Vous pouvez décider de créer uniquement des vues qui effectuent des transformations à la volée (Non matérialisé) ou de créer des tables et des vues (Matérialisé).
-
Historique
Vous pouvez conserver les données historiques de changement pour faciliter la recréation des données à l'identique à un instant précis. Les vues Historique et Historique en direct vous permettent de consulter les données historiques.
Paramètres d'exécution
-
Exécution parallèle
Vous pouvez définir le nombre maximal de connexions de données pour les chargements complets sur un nombre compris entre 1 et 5.
-
Entrepôt
Nom de l'entrepôt de données cloud.
Limitations
-
Il n'est pas possible de modifier des types de données dans une tâche de données de transformation lorsque l'option Non matérialisé est sélectionnée.
-
Les ensembles de données basés sur SQL non matérialisés fournissent l'ensemble de résultats complet uniquement ; le filtrage incrémentiel n'est pas pris en charge. Les ensembles de données basés sur SQL non matérialisés fournissent également uniquement les données existantes et ne conservent pas les enregistrements historiques.