Réplication de données avec un abonnement Démarreur Qlik Talend Cloud
Grâce à l'assistant de configuration des tâches, vous pouvez facilement configurer une tâche de réplication en seulement quelques clics.
Les paramètres indiqués dans l'assistant reflètent le type de cible sélectionné. Par exemple, lors de la réplication dans des cibles de stockage telles qu'Amazon S3, il vous sera demandé d'indiquer un emplacement de stockage. En revanche, lors de la réplication dans des cibles telles qu'Amazon Redshift qui requièrent une zone intermédiaire, il vous sera demandé de définir ou de sélectionner une zone intermédiaire.
Le tableau suivant vous aidera à parcourir cette rubrique en fonction de la cible visée.
Réplication dans des bases de données et des entrepôts de données sans zone intermédiaire
Configurez une tâche de réplication dans des bases de données ou dans des entrepôts de données qui ne nécessitent pas de zone intermédiaire, à savoir, les cibles suivantes :
- Google BigQuery
- Snowflake
Réplication dans des entrepôts de données avec une zone intermédiaire
Configurez une tâche de réplication dans des entrepôts de données qui nécessitent une zone intermédiaire, à savoir, les cibles suivantes :
- Amazon Redshift
- Microsoft Fabric
- Databricks
Réplication dans le stockage cloud
Configurez une tâche de réplication dans un stockage cloud.
Réplication dans des bases de données et des entrepôts de données sans zone intermédiaire
Cette section explique comment configurer une tâche de réplication dans des bases de données et des entrepôts de données qui ne nécessitent pas de zone intermédiaire distincte.
Pour effectuer cette action :
-
Dans Intégration de données > Accueil, cliquez sur Appliquer l'opération Replicate aux données.
L'assistant Appliquer l'opération Replicate aux données s'ouvre.
-
Dans l'onglet Général, procédez comme suit :
-
Nom de tâche
Spécifiez un nom pour votre tâche.
-
Description
Vous pouvez aussi saisir une description pour votre tâche.
-
Projet
Procédez de l'une des manières suivantes :
- Sélectionnez un projet existant.
-
Spécifiez un nom pour le nouveau projet, puis cliquez sur Ajouter un projet : <nom-de-votre-projet> sous le champ Projet.
Le nom de projet sera ajouté au champ Projet.
-
Espace
Sélectionnez un espace de données pour votre projet de réplication. Si vous n'avez pas encore créé d'espaces de données, effectuez l'une des opérations suivantes :
-
Sélectionnez Data-Space (espace de données du client par défaut)
Note InformationsData-Space dispose d'autorisations complètes pour tous les membres. Vous pouvez modifier les rôles et les autorisations de chaque membre ultérieurement, comme décrit dans Rôles et autorisations au sein d'un espace de données. -
Annulez l'assistant, créez votre propre espace de données, comme décrit dans Création d'un espace de données, puis réexécutez l'assistant.
Pour plus d'informations sur les espaces de données, consultez Utilisation d'espaces dans Qlik Talend Data Integration.
-
-
-
Cliquez sur Suivant. Dans l'onglet Sélectionner une connexion source, sélectionnez une connexion aux données sources. Vous pouvez éventuellement modifier les paramètres de connexion en sélectionnant Modifier dans le menu dans la colonne Actions.
Si vous n'avez pas encore créé de connexion à votre source de données, vous devez en créer une en cliquant sur Créer une connexion dans le coin supérieur droit de l'onglet.
Vous pouvez filtrer la liste de connexions via les filtres à gauche. Il est possible de filtrer les connexions en fonction du type de source, de la passerelle, de l'espace et du propriétaire. Le bouton Tous les filtres au-dessus de la liste de connexions affiche le nombre de filtres en cours. Vous pouvez utiliser ce bouton pour fermer ou ouvrir le panneau Filtres à gauche. Les filtres actuellement actifs sont également indiqués au-dessus de la liste de connexions disponibles.
Vous pouvez également trier la liste en sélectionnant Dernière modification, Dernière création ou Alphabétiquedans la liste déroulante à droite. Cliquez sur la flèche à droite de la liste pour modifier l'ordre de tri.
Une fois que vous avez sélectionnez une connexion de source de données, vous pouvez cliquer sur Tester la connexion dans le coin supérieur droit de l'onglet (recommandé), puis cliquez sur Suivant.
-
Dans l'onglet Sélectionner des jeux de données, sélectionnez des tables et/ou des vues à inclure dans la tâche de réplication. Vous pouvez également utiliser des caractères génériques et créer des règles de sélection, comme décrit à la section Sélection de données à partir d'une base de données.
-
Dans l'onglet Sélectionner une connexion cible, sélectionnez la cible dans la liste de connexions disponibles, puis cliquez sur Suivant. En termes de fonctionnalités, l'onglet est identique à l'onglet Sélectionner une connexion source décrit précédemment.
-
Dans l'onglet Paramètres, vous pouvez modifier les paramètres suivants, puis cliquez sur Suivant.
Mode de réplication
Note InformationsLors de la réplication à partir de sources d'applications SaaS, le mode de réplication Chargement complet est activé par défaut et ne peut pas être désactivé.- Chargement complet : Charge les données des tables sources sélectionnées dans la plate-forme cible et crée les tables cibles, si nécessaire. Le chargement complet s'effectue automatiquement lorsque la tâche démarre, mais il peut également être effectué manuellement, si nécessaire.
-
Appliquer les modifications : Maintient les tables cibles à jour en y ajoutant toutes les modifications apportées aux tables sources.
-
Stocker les modifications : Stocke les modifications apportées aux tables sources dans les tables de modifications (une par table source).
Pour plus d'informations, consultez Stocker les modifications.
La fréquence de capture des données de modification est déterminée par les paramètres du planificateur. Par défaut, la capture des modifications s'effectue toutes les 6 heures. Pour plus d'informations, consultez Planification de tâches sans utiliser Data Movement gateway.
Schémas personnalisés
- Schéma de l'ensemble de données cible : Vous avez la possibilité de sélectionner le schéma dans lequel créer les ensembles de données sur la cible.
- Schéma de table de contrôle : Vous avez la possibilité de sélectionner le schéma dans lequel créer les tables de contrôle sur la cible.
Planification de la réplication
-
Répliquer les données tous les : Vous pouvez planifier la fréquence à laquelle capturer les modifications apportées à la source de données et définir une Heure de début et une Date de début. Si les ensembles de données sources supportent CDC (Change Data Capture), seules les modifications apportées aux données sources seront répliquées et appliquées aux tables cibles correspondantes. Si les ensembles de données sources ne supportent pas CDC (par exemple, les Vues), les modifications seront appliquées via l'actualisation de l'ensemble des données sources dans les tables cibles correspondantes. Si certains des ensembles de données sources supportent CDC et d'autres non, deux sous-tâches distinctes seront créées (en supposant que l'option de réplication Appliquer les modifications ou Stocker les modifications soit sélectionnée) : l'une pour actualiser les ensembles de données qui ne supportent pas CDC et l'autre pour capturer les modifications apportées aux ensembles de données qui supportent CDC.
L'assistant de configuration des tâches vous permet de planifier un intervalle d'une heure. Après avoir terminé la configuration de la tâche, vous pouvez explorer différentes options de planification, comme décrit dans Planification de tâches sans utiliser Data Movement gateway.
Pour des informations sur les intervalles de planification minimaux en fonction du type de source de données et du niveau d'abonnement, consultez Intervalles de planification minimaux autorisés.
Vous pouvez modifier les paramètres ultérieurement, comme décrit dans Paramètres des tâches de réplication de données.
-
L'onglet Récapitulatif affiche visuellement le pipeline de données. Sélectionnez l'une des actions Une fois le pipeline créé suivantes :
- Ouvrir le projet <nom> (la valeur par défaut)
-
Ouvrir la tâche de données <nom>
Note InformationsSi certains des jeux de données sélectionnés ne supportent pas CDC, deux pipelines apparaîtront : l'un pour la tâche CDC et l'autre pour la tâche Charger.
Cliquez ensuite sur Créer et exécuter (la valeur par défaut) ou sur Créer pour créer la tâche sans l'exécuter.
Si vous avez cliqué sur Créer et exécuter, la tâche sera créée et son exécution démarrera (cela peut prendre quelques instants).
-
Si vous avez cliqué sur Créer, il se produira l'une des situations suivantes suivant l'action Une fois le pipeline créé précédemment sélectionnée :
- Le projet s'ouvrira sur la tâche récemment créée.
-
La tâche s'ouvrira dans l'onglet Jeux de données. L'onglet Jeux de données indique la structure et les métadonnées des tables sources sélectionnées. Sont concernées toutes les tables répertoriées de manière explicite ainsi que les tables correspondant aux règles de sélection.
Si vous souhaitez ajouter d'autres tables provenant de la source de données, cliquez sur Sélectionner des données sources.
-
Vous pouvez effectuer des transformations sur les jeux de données, filtrer des données ou ajouter des colonnes.
Pour plus d'informations, consultez Gestion des jeux de données.
-
Lorsque vous avez ajouté les transformations souhaitées, vous pouvez valider les jeux de données en cliquant sur Valider les jeux de données. Si la validation échoue, corrigez les erreurs avant de poursuivre.
Pour plus d'informations, consultez Validation et ajustement des jeux de données.
-
Lorsque vous êtes prêt, cliquez sur Préparer et exécuter pour préparer et exécuter la tâche de données.
Pour des informations sur la récupération des tâches et d'autres méthodes d'exécution des tâches, voir Options d'exécution avancées.
-
La tâche de réplication doit maintenant démarrer. Vous pouvez voir sa progression dans Surveiller. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle
Réplication dans des entrepôts de données avec une zone intermédiaire
Cette section explique comment configurer une tâche de réplication dans des entrepôts de données qui nécessitent une zone intermédiaire distincte.
Pour effectuer cette action :
-
Dans Intégration de données > Accueil, cliquez sur Appliquer l'opération Replicate aux données.
L'assistant Appliquer l'opération Replicate aux données s'ouvre.
-
Dans l'onglet Général, procédez comme suit :
-
Nom de tâche
Spécifiez un nom pour votre tâche.
-
Description
Vous pouvez aussi saisir une description pour votre tâche.
-
Projet
Procédez de l'une des manières suivantes :
- Sélectionnez un projet existant.
-
Spécifiez un nom pour le nouveau projet, puis cliquez sur Ajouter un projet : <nom-de-votre-projet> sous le champ Projet.
Le nom de projet sera ajouté au champ Projet.
-
Espace
Sélectionnez un espace de données pour votre projet de réplication. Si vous n'avez pas encore créé d'espaces de données, effectuez l'une des opérations suivantes :
-
Sélectionnez Data-Space (espace de données du client par défaut)
Note InformationsData-Space dispose d'autorisations complètes pour tous les membres. Vous pouvez modifier les rôles et les autorisations de chaque membre ultérieurement, comme décrit dans Rôles et autorisations au sein d'un espace de données. -
Annulez l'assistant, créez votre propre espace de données, comme décrit dans Création d'un espace de données, puis réexécutez l'assistant.
Pour plus d'informations sur les espaces de données, consultez Utilisation d'espaces dans Qlik Talend Data Integration.
-
-
-
Cliquez sur Suivant. Dans l'onglet Sélectionner une connexion source, sélectionnez une connexion aux données sources. Vous pouvez éventuellement modifier les paramètres de connexion en sélectionnant Modifier dans le menu dans la colonne Actions.
Si vous n'avez pas encore créé de connexion à votre source de données, vous devez en créer une en cliquant sur Créer une connexion dans le coin supérieur droit de l'onglet.
Vous pouvez filtrer la liste de connexions via les filtres à gauche. Il est possible de filtrer les connexions en fonction du type de source, de la passerelle, de l'espace et du propriétaire. Le bouton Tous les filtres au-dessus de la liste de connexions affiche le nombre de filtres en cours. Vous pouvez utiliser ce bouton pour fermer ou ouvrir le panneau Filtres à gauche. Les filtres actuellement actifs sont également indiqués au-dessus de la liste de connexions disponibles.
Vous pouvez également trier la liste en sélectionnant Dernière modification, Dernière création ou Alphabétiquedans la liste déroulante à droite. Cliquez sur la flèche à droite de la liste pour modifier l'ordre de tri.
Une fois que vous avez sélectionnez une connexion de source de données, vous pouvez cliquer sur Tester la connexion dans le coin supérieur droit de l'onglet (recommandé), puis cliquez sur Suivant.
-
Dans l'onglet Sélectionner des jeux de données, sélectionnez des tables et/ou des vues à inclure dans la tâche de réplication. Vous pouvez également utiliser des caractères génériques et créer des règles de sélection, comme décrit à la section Sélection de données à partir d'une base de données.
-
Dans l'onglet Sélectionner une connexion cible, sélectionnez la cible dans la liste de connexions disponibles, puis cliquez sur Suivant. En termes de fonctionnalités, l'onglet est identique à l'onglet Sélectionner une connexion source décrit précédemment.
-
Dans l'onglet Paramètres, vous pouvez modifier les paramètres suivants, puis cliquez sur Suivant.
Mode de réplication
Note InformationsLors de la réplication à partir de sources d'applications SaaS, le mode de réplication Chargement complet est activé par défaut et ne peut pas être désactivé.- Chargement complet : Charge les données des tables sources sélectionnées dans la plateforme cible et crée les tables cibles, si nécessaire. Le chargement complet s'effectue automatiquement lorsque la tâche démarre, mais il peut également être effectué manuellement, si nécessaire.
-
Appliquer les modifications : Maintient les tables cibles à jour en y ajoutant toutes les modifications apportées aux tables sources.
-
Stocker les modifications : Stocke les modifications apportées aux tables sources dans les tables de modifications (une par table source).
Pour plus d'informations, consultez Stocker les modifications.
La fréquence de capture des données de modification est déterminée par les paramètres du planificateur. Par défaut, la capture des modifications s'effectue toutes les 6 heures. Pour plus d'informations, consultez Planification de tâches sans utiliser Data Movement gateway.
Connexion à la zone intermédiaire
Lors de la réplication dans les entrepôts de données répertoriés ci-dessous, vous devez définir une zone intermédiaire. Les données sont traitées et préparées dans la zone intermédiaire avant d'être transférées à l'entrepôt.
Sélectionnez une zone intermédiaire existante ou cliquez sur Créer nouveau pour définir une nouvelle zone intermédiaire et suivez les instructions à la section Connexion au stockage cloud.
Pour modifier les paramètres de connexion, cliquez sur Modifier. Pour tester la connexion (recommandé), cliquez sur Tester la connexion.
Pour des informations sur les zones intermédiaires supportées avec tel ou tel entrepôt de données, consultez la colonne Supporté comme zone intermédiaire à la section Cas d'utilisation des plateformes cibles et versions supportées.
Schémas personnalisés
- Schéma du jeu de données cible : Vous avez la possibilité de sélectionner le schéma dans lequel créer les jeux de données sur la cible.
- Schéma de table de contrôle : Vous avez la possibilité de sélectionner le schéma dans lequel créer les tables de contrôle sur la cible.
Planification de la réplication
-
Répliquer les données tous les : Vous pouvez planifier la fréquence à laquelle capturer les modifications apportées à la source de données et définir une Heure de début et une Date de début. Si les ensembles de données sources supportent CDC (Change Data Capture), seules les modifications apportées aux données sources seront répliquées et appliquées aux tables cibles correspondantes. Si les ensembles de données sources ne supportent pas CDC (par exemple, les Vues), les modifications seront appliquées via l'actualisation de l'ensemble des données sources dans les tables cibles correspondantes. Si certains des ensembles de données sources supportent CDC et d'autres non, deux sous-tâches distinctes seront créées (en supposant que l'option de réplication Appliquer les modifications ou Stocker les modifications soit sélectionnée) : l'une pour actualiser les ensembles de données qui ne supportent pas CDC et l'autre pour capturer les modifications apportées aux ensembles de données qui supportent CDC.
L'assistant de configuration des tâches vous permet de planifier un intervalle d'une heure. Après avoir terminé la configuration de la tâche, vous pouvez explorer différentes options de planification, comme décrit dans Planification de tâches sans utiliser Data Movement gateway.
Vous pouvez modifier les paramètres ultérieurement, comme décrit dans Paramètres des tâches de réplication de données.
-
L'onglet Récapitulatif affiche visuellement le pipeline de données. Sélectionnez l'une des actions Une fois le pipeline créé suivantes :
- Ouvrir le projet <nom> (la valeur par défaut)
-
Ouvrir la tâche de données <nom>
Note InformationsSi certains des jeux de données sélectionnés ne supportent pas CDC, deux pipelines apparaîtront : l'un pour la tâche CDC et l'autre pour la tâche Charger.
Cliquez ensuite sur Créer et exécuter (la valeur par défaut) ou sur Créer pour créer la tâche sans l'exécuter.
Si vous avez cliqué sur Créer et exécuter, la tâche sera créée et son exécution démarrera (cela peut prendre quelques instants).
-
Si vous avez cliqué sur Créer, il se produira l'une des situations suivantes suivant l'action Une fois le pipeline créé précédemment sélectionnée :
- Le projet s'ouvrira sur la tâche récemment créée.
-
La tâche s'ouvrira dans l'onglet Jeux de données. L'onglet Jeux de données indique la structure et les métadonnées des tables sources sélectionnées. Sont concernées toutes les tables répertoriées de manière explicite ainsi que les tables correspondant aux règles de sélection.
Si vous souhaitez ajouter d'autres tables provenant de la source de données, cliquez sur Sélectionner des données sources.
-
Vous pouvez effectuer des transformations sur les jeux de données, filtrer des données ou ajouter des colonnes.
Pour plus d'informations, consultez Gestion des jeux de données.
-
Lorsque vous avez ajouté les transformations souhaitées, vous pouvez valider les jeux de données en cliquant sur Valider les jeux de données. Si la validation échoue, corrigez les erreurs avant de poursuivre.
Pour plus d'informations, consultez Validation et ajustement des jeux de données.
-
Lorsque vous êtes prêt, cliquez sur Préparer et exécuter pour préparer et exécuter la tâche de données.
Pour des informations sur la récupération des tâches et d'autres méthodes d'exécution des tâches, voir Options d'exécution avancées.
-
La tâche de réplication doit maintenant démarrer. Vous pouvez voir sa progression dans Surveiller. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle
Réplication dans le stockage cloud
Cette section explique comment configurer une tâche de réplication dans un stockage cloud.
Pour effectuer cette action :
-
Dans Intégration de données > Accueil, cliquez sur Appliquer l'opération Replicate aux données.
L'assistant Appliquer l'opération Replicate aux données s'ouvre.
-
Dans l'onglet Général, procédez comme suit :
-
Nom de tâche
Spécifiez un nom pour votre tâche.
-
Description
Vous pouvez aussi saisir une description pour votre tâche.
-
Projet
Procédez de l'une des manières suivantes :
- Sélectionnez un projet existant.
-
Spécifiez un nom pour le nouveau projet, puis cliquez sur Ajouter un projet : <nom-de-votre-projet> sous le champ Projet.
Le nom de projet sera ajouté au champ Projet.
-
Espace
Sélectionnez un espace de données pour votre projet de réplication. Si vous n'avez pas encore créé d'espaces de données, effectuez l'une des opérations suivantes :
-
Sélectionnez Data-Space (espace de données du client par défaut)
Note InformationsData-Space dispose d'autorisations complètes pour tous les membres. Vous pouvez modifier les rôles et les autorisations de chaque membre ultérieurement, comme décrit dans Rôles et autorisations au sein d'un espace de données. -
Annulez l'assistant, créez votre propre espace de données, comme décrit dans Création d'un espace de données, puis réexécutez l'assistant.
Pour plus d'informations sur les espaces de données, consultez Utilisation d'espaces dans Qlik Talend Data Integration.
-
-
-
Cliquez sur Suivant. Dans l'onglet Sélectionner une connexion source, sélectionnez une connexion aux données sources. Vous pouvez éventuellement modifier les paramètres de connexion en sélectionnant Modifier dans le menu dans la colonne Actions.
Si vous n'avez pas encore créé de connexion à votre source de données, vous devez en créer une en cliquant sur Créer une connexion dans le coin supérieur droit de l'onglet.
Vous pouvez filtrer la liste de connexions via les filtres à gauche. Il est possible de filtrer les connexions en fonction du type de source, de la passerelle, de l'espace et du propriétaire. Le bouton Tous les filtres au-dessus de la liste de connexions affiche le nombre de filtres en cours. Vous pouvez utiliser ce bouton pour fermer ou ouvrir le panneau Filtres à gauche. Les filtres actuellement actifs sont également indiqués au-dessus de la liste de connexions disponibles.
Vous pouvez également trier la liste en sélectionnant Dernière modification, Dernière création ou Alphabétiquedans la liste déroulante à droite. Cliquez sur la flèche à droite de la liste pour modifier l'ordre de tri.
Une fois que vous avez sélectionnez une connexion de source de données, vous pouvez cliquer sur Tester la connexion dans le coin supérieur droit de l'onglet (recommandé), puis cliquez sur Suivant.
-
Dans l'onglet Sélectionner des jeux de données, sélectionnez des tables et/ou des vues à inclure dans la tâche de réplication. Vous pouvez également utiliser des caractères génériques et créer des règles de sélection, comme décrit à la section Sélection de données à partir d'une base de données.
-
Dans l'onglet Sélectionner une connexion cible, sélectionnez la cible dans la liste de connexions disponibles, puis cliquez sur Suivant. En termes de fonctionnalités, l'onglet est identique à l'onglet Sélectionner une connexion source décrit précédemment.
-
Dans l'onglet Paramètres, vous pouvez modifier les paramètres suivants, puis cliquez sur Suivant.
Méthode de mise à jour
-
Change Data Capture (CDC) : Les tâches de dépôt temporaire dans un lac de données démarrent avec un chargement complet (au cours duquel toutes les tables sélectionnées sont temporairement déposées). Les données temporairement déposées sont ensuite maintenues à jour via la technologie CDC (Change Data Capture).
Note InformationsL'opération CDC (Change Data Capture) des opérations DDL n'est pas supportée.La fréquence de capture des données de modification est déterminée par les paramètres du planificateur. Par défaut, la capture des modifications s'effectue toutes les 6 heures. Pour plus d'informations, consultez Planification de tâches sans utiliser Data Movement gateway.
- Charger : effectue un chargement complet des données des tables sources sélectionnées dans la plateforme cible et crée les tables cibles, si nécessaire. Le chargement complet s'effectue automatiquement lorsque la tâche démarre, mais il peut également être effectué manuellement ou planifié de sorte à se produire périodiquement, si nécessaire.
Si vous sélectionnez Change Data Capture (CDC) et si vos données contiennent également des tables qui ne prennent pas en charge CDC, ou des vues, deux pipelines de données seront créés. Un pipeline avec l'ensemble des tables prenant en charge CDC, et un autre pipeline avec l'ensemble des autres tables et vues utilisant Charger.
Dossier à utiliser
Sélectionnez une des options suivantes, suivant le dossier de compartiment dans lequel vous souhaitez écrire les fichiers :
- Dossier par défaut : Le format de dossier par défaut est <votre-nom-de-projet>/<votre-nom-de-tâche>.
- Dossier racine : Les fichiers seront directement écrits dans le compartiment.
-
Dossier : Saisissez le nom de dossier. Le dossier sera créé lors de la tâche de dépôt temporaire de lac de données, s'il n'existe pas.
Note Informations Le nom de dossier ne peut pas contenir de caractères spéciaux (par exemple, @, #, !, etc.).
Planification de la réplication
-
Répliquer les données tous les : Vous pouvez planifier la fréquence à laquelle capturer les modifications apportées à la source de données et définir une Heure de début et une Date de début. Si les ensembles de données sources supportent CDC (Change Data Capture), seules les modifications apportées aux données sources seront répliquées et appliquées aux tables cibles correspondantes. Si les ensembles de données sources ne supportent pas CDC (par exemple, les Vues), les modifications seront appliquées via l'actualisation de l'ensemble des données sources dans les tables cibles correspondantes. Si certains des ensembles de données sources supportent CDC et d'autres non, deux sous-tâches distinctes seront créées (en supposant que la méthode de mise à jour Change Data Capture (CDC) soit sélectionnée) : l'une pour actualiser les ensembles de données qui ne supportent pas CDC et l'autre pour capturer les modifications apportées aux ensembles de données qui supportent CDC.
L'assistant de configuration des tâches vous permet de planifier un intervalle d'une heure. Après avoir terminé la configuration de la tâche, vous pouvez explorer différentes options de planification, comme décrit dans Planification de tâches sans utiliser Data Movement gateway.
Vous pouvez modifier les paramètres de la tâche ultérieurement, comme décrit dans Paramètres des cibles de stockage cloud.
-
-
L'onglet Récapitulatif affiche visuellement le pipeline de données. Sélectionnez l'une des actions Une fois le pipeline créé suivantes :
- Ouvrir le projet <nom> (la valeur par défaut)
-
Ouvrir la tâche de données <nom>
Note InformationsSi certains des jeux de données sélectionnés ne supportent pas CDC, deux pipelines apparaîtront : l'un pour la tâche CDC et l'autre pour la tâche Charger.
Cliquez ensuite sur Créer et exécuter (la valeur par défaut) ou sur Créer pour créer la tâche sans l'exécuter.
Si vous avez cliqué sur Créer et exécuter, la tâche sera créée et son exécution démarrera (cela peut prendre quelques instants).
-
Si vous avez cliqué sur Créer, il se produira l'une des situations suivantes suivant l'action Une fois le pipeline créé précédemment sélectionnée :
- Le projet s'ouvrira sur la tâche récemment créée.
-
La tâche s'ouvrira dans l'onglet Jeux de données. L'onglet Jeux de données indique la structure et les métadonnées des tables sources sélectionnées. Sont concernées toutes les tables répertoriées de manière explicite ainsi que les tables correspondant aux règles de sélection.
Si vous souhaitez ajouter d'autres tables provenant de la source de données, cliquez sur Sélectionner des données sources.
-
Vous pouvez effectuer des transformations sur les jeux de données, filtrer des données ou ajouter des colonnes.
Pour plus d'informations, consultez Gestion des jeux de données.
-
Lorsque vous avez ajouté les transformations souhaitées, vous pouvez valider les jeux de données en cliquant sur Valider les jeux de données. Si la validation échoue, corrigez les erreurs avant de poursuivre.
Pour plus d'informations, consultez Validation et ajustement des jeux de données.
-
Lorsque vous êtes prêt, cliquez sur Préparer et exécuter pour préparer et exécuter la tâche de données.
Pour des informations sur la récupération des tâches et d'autres méthodes d'exécution des tâches, voir Options d'exécution avancées.
-
La tâche de réplication doit maintenant démarrer. Vous pouvez voir sa progression dans Surveiller. Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle
Définition de la priorité de chargement des ensembles de données
Vous pouvez contrôler l'ordre de chargement des ensembles de données de votre tâche de données en attribuant une priorité de chargement à chaque ensemble de données. Cela peut être utile, par exemple, si vous souhaitez charger les ensembles de données plus petits avant les grands.
-
Cliquez sur Priorité de chargement.
-
Sélectionnez une priorité de chargement pour chaque ensemble de données.
La priorité de chargement par défaut est Normale. Les ensembles de données seront chargés dans l'ordre de priorité suivant :
-
La plus élevée
-
Plus élevée
-
Élevée
-
Normale
-
Faible
-
Plus faible
-
La plus faible
Les ensembles de données ayant la même priorité ne sont pas chargés dans un ordre particulier.
-
-
Cliquez sur OK.
Actualisation des métadonnées
Vous pouvez actualiser les métadonnées de la tâche pour les aligner sur les modifications apportées aux métadonnées de la source dans la vue Conception d'une tâche. Pour les applications SaaS qui utilisent Metadata manager, il convient d'actualiser Metadata manager avant de pouvoir actualiser les métadonnées de la tâche de données.
-
Vous pouvez effectuer l'une des opérations suivantes :
-
Cliquez sur ..., puis sur Actualiser les métadonnées pour actualiser les métadonnées de la totalité des jeux de données de la tâche.
-
Cliquez sur ... sur un jeu de données dans Jeux de données, puis sur Actualiser les métadonnées pour actualiser les métadonnées d'un seul jeu de données.
Vous pouvez afficher le statut de l'actualisation des métadonnées sous Actualiser les métadonnées dans la partie inférieure de l'écran. Vous pouvez voir à quel moment les métadonnées ont été actualisées pour la dernière fois en survolant à l'aide du curseur.
-
-
Préparez la tâche de données de sorte à appliquer les modifications.
Une fois la tâche de données préparée et les modifications appliquées, les modifications sont supprimées de Actualiser les métadonnées.
Pour pouvoir propager les modifications, vous devez préparer des tâches de stockage qui consomment cette tâche.
Si une colonne est retirée, une transformation avec des valeurs Null est ajoutée pour garantir que le stockage ne perdra pas de données historiques.
Limitations
-
Un renommage avec une colonne abandonnée avant cela, dans le même laps de temps, sera traduit en renommage de la colonne abandonnée si elles ont le même type de données et la même longueur de données.
Avant : a b c d
Après : a c1 d
Dans cet exemple, la colonne b a été abandonnée et la colonne c a été renommée c1, et b et c ont le même type de données et la même longueur de données.
Cela sera identifié comme le renommage de la colonne b en c1 et un abandon de la colonne c.
-
Le renommage de la dernière colonne n'est pas reconnu, même si la dernière colonne a été abandonnée et celle d'avant a été renommée.
Avant : a b c d
Après : a b c1
Dans cet exemple, la colonne d a été abandonnée et la colonne c a été renommée c1.
Cela sera identifié comme un abandon de la colonne c et de la colonne d et un ajout de la colonne c1.
-
Les nouvelles colonnes sont supposées être ajoutées à la fin. Si les colonnes sont ajoutées au milieu avec le même type de données que celui de la colonne suivante, elles peuvent être interprétées comme un abandon et un renommage.
Limitations et considérations générales lors de la réplication de données
Les transformations sont soumises aux limitations suivantes :
- Les transformations ne sont pas supportées pour les colonnes dont les langues s'écrivent de droite à gauche.
-
Aucune transformation ne peut être effectuée sur des colonnes dont le nom contient des caractères spéciaux (par ex. #, \, /, -).
- La seule transformation supportée pour les types de données LOB/CLOB est le dépôt de la colonne sur la cible.
- L'utilisation d'une transformation pour renommer une colonne, puis l'ajout d'une nouvelle colonne portant le même nom ne sont pas supportés.
La modification de la nullabilité n'est pas supportée sur les colonnes déplacées, soit en la modifiant directement, soit en utilisant une règle de transformation. En revanche, les nouvelles colonnes créées dans la tâche sont nullables par défaut.