Paramètres de dépôt temporaire
Vous pouvez configurer les paramètres de la tâche de données de dépôt temporaire.
-
Ouvrez la tâche de dépôt temporaire et cliquez sur Paramètres dans la barre d'outils.
La boîte de dialogue Paramètres : <Nom-de-tâche> s'ouvre. Les paramètres disponibles sont décrits ci-dessous.
Général
-
Base de données
Base de données à utiliser dans la cible.
Note InformationsCette option n'est pas disponible lors du dépôt temporaire de données dans Qlik Cloud (via Amazon S3). -
Schéma de tâche
Vous pouvez modifier le nom du schéma de tâche de données de dépôt temporaire. Le nom par défaut est dépôt temporaire.
Note InformationsCette option n'est pas disponible lors du dépôt temporaire de données dans Qlik Cloud (via Amazon S3). -
Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsCette option n'est pas disponible lors du dépôt temporaire de données dans Qlik Cloud (via Amazon S3).Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique. -
Méthode de mise à jour
La tâche de dépôt temporaire commence toujours par un chargement complet. Une fois le chargement complet terminé, vous pouvez maintenir les données déposées temporairement à jour via l'une des méthodes suivantes :
Note InformationsIl est impossible de modifier la méthode de mise à jour une fois l'opération de préparation de la tâche de données de dépôt temporaire terminée.-
Change Data Capture (CDC)
Les données déposées temporairement sont maintenues à jour via la technologie CDC (Change Data Capture). Il se peut que CDC ne soit pas pris en charge par toutes les sources de données. CDC ne capture pas les opérations DDL telles que l'attribution d'un nouveau nom aux colonnes ou les modifications des métadonnées.
Si vos données contiennent également des vues ou des tables ne prenant pas en charge CDC, deux pipelines de données seront créés. Un pipeline avec l'ensemble des tables prenant en charge CDC, et un autre pipeline avec l'ensemble des autres tables et vues utilisant Charger et comparer comme méthode de mise à jour.
-
Recharger et comparer
L'ensemble des données déposées temporairement sont actualisées depuis la source. Cela s'avère utile si votre source ne prend pas en charge CDC, mais peut être utilisée avec n'importe quelle source de données prise en charge.
Vous pouvez planifier régulièrement les chargements.
-
-
Dossier à utiliser dans la zone intermédiaire
Pour les plateformes de données qui nécessitent une zone intermédiaire (par exemple, Databricks et Azure Synapse Analytics), vous pouvez sélectionner le dossier à utiliser lors du dépôt temporaire de données.
-
Dossier par défaut
Cela crée un dossier portant le nom par défaut suivant : <nom de projet>/<nom de tâche de données>.
-
Dossier racine
Conservez les données dans le dossier racine du stockage.
Note InformationsCette option n'est disponible que pour le dépôt temporaire de données dans Qlik Cloud (via Amazon S3). -
Dossier
Indiquez le nom de dossier à utiliser.
-
-
Modifier l'intervalle de traitement
Vous pouvez définir l'intervalle de traitement des modifications depuis la source.
Note InformationsCette option n'est disponible que pour le dépôt temporaire de données dans Qlik Cloud (via Amazon S3). -
Serveur proxy lors de l'utilisation de la passerelle Déplacement des données
Note InformationsCette option est disponible uniquement lors de l'accès à des cibles via Data Movement gateway.Pour pouvez décider d'utiliser un serveur proxy lorsque la passerelle Déplacement des données se connecte à l'entrepôt de données cloud et à la zone de stockage.
Pour plus d'informations sur la configuration de la passerelle Déplacement des données de sorte qu'elle utilise un serveur proxy, voir Configuration du client Qlik Cloud et d'un serveur proxy.
-
Utiliser un proxy pour se connecter à l'entrepôt de données cloud
Note InformationsDisponible lors de l'utilisation de Snowflake, de Google BigQuery et de Databricks. -
Utiliser un proxy pour se connecter au stockage
Note InformationsDisponible lors de l'utilisation d'Azure Synapse Analytics, d'Amazon Redshift et de Databricks.
-
Chargement de données
-
Taille de fichiers maximale (Ko)
Taille maximale d'un fichier avant sa fermeture. Il se peut que des fichiers plus petits soient chargés plus rapidement (suivant le réseau) et améliorent les performances lors de l'utilisation en combinaison avec l'option d'exécution parallèle. Cependant, il est généralement déconseillé d'encombrer la base de données de petits fichiers.
Note InformationsCe paramètre s'applique à toutes les plateformes de données, sauf Qlik Cloud. -
Utiliser la compression
Lorsque ce paramètre est sélectionné, les fichiers CSV sont compressés (via gzip) avant d'être chargés dans Google BigQuery.
Note Informations- Ce paramètre s'applique uniquement à Google BigQuery.
- Nécessite Data Movement gateway 2023.5.16 ou une version ultérieure.
Métadonnées
Colonnes LOB
-
Inclure les colonnes LOB et limiter la taille des colonnes à (Ko) :
Vous pouvez choisir d'inclure des colonnes LOB dans la tâche et de définir la taille LOB maximale. Les LOB dépassant la taille maximale seront tronqués.
Note InformationsLorsque vous utilisez Azure Synapse Analytics comme cible, la taille LOB maximale ne peut pas dépasser 7 Mo.
Tables de contrôle
Sélectionnez parmi les tables de contrôle suivantes celles que vous souhaitez créer sur la plateforme cible :
- Statut du dépôt temporaire : Fournit des détails sur la tâche de dépôt temporaire active, notamment le statut de la tâche, la quantité de mémoire consommée par la tâche, le nombre de modifications non encore appliquées à la plateforme de données et la position du point de terminaison source à partir duquel la Data Movement gateway lit actuellement.
- Tables suspendues : Fournit une liste de tables suspendues et la raison pour laquelle elles ont été suspendues.
- Historique du dépôt temporaire : Fournit des informations sur l'historique de la tâche, notamment le nombre et le volume d'enregistrements traités lors d'une tâche de dépôt temporaire, la latence à la fin d'une tâche CDC, etc.
-
Historique DDL : Contient un historique de l'ensemble des modifications DDL supportées qui se sont produites lors d'une tâche.
Note InformationsLa table Historique DDL est supportée uniquement avec les plates-formes cibles suivantes :
-
Databricks
- Microsoft Fabric
-
Pour une description détaillée de chacune des tables de contrôle, consultez Tables de contrôle.
Chargement complet
Réglage des performances
- Nombre maximal de tables à charger en parallèle : saisissez le nombre maximal de tables à charger simultanément dans la cible. La valeur par défaut est 5.
-
Délai d'expiration de la cohérence des transactions (secondes) : saisissez le nombre de secondes pendant lequel attend la clôture des transactions ouvertes avant de démarrer l'opération Chargement complet. La valeur par défaut est 600 (10 minutes). Le chargement complet démarrera après que la valeur de délai d'expiration est atteinte, même en cas de transactions encore ouvertes.
Note InformationsPour répliquer des transactions ouvertes lors du démarrage de l'opération Chargement complet, mais validées uniquement après que la valeur du délai d'expiration a été atteinte, vous devez actualiser les tables cibles. - Taux de commit lors du chargement complet : nombre maximal d'événements pouvant être transférés ensemble. La valeur par défaut est 10 000.
À la fin du chargement complet
Créer une clé primaire ou un index unique : sélectionnez cette option pour reporter la création de la clé primaire ou de l'index unique sur la plateforme de données à la fin du chargement complet.
Pour le chargement initial
Lors du déplacement de données depuis une source d'applications SaaS, vous pouvez définir la manière d'effectuer le chargement complet initial :
Utiliser les données en cache |
Cette option vous permet d'utiliser les données en cache qui ont été lues lors de la génération des métadonnées avec Scan de données complet sélectionné. Cela génère moins de frais généraux en ce qui concerne les quotas et l'utilisation des API, car les données sont déjà lues de la source. Toute modification depuis le scan de données initial peut être capturée via Change Data Capture (CDC). |
Charger les données de la source |
Cette option effectue un nouveau chargement depuis la source de données. Cette option est utile dans les cas suivants :
|
Traitement des erreurs
Erreurs de données
Le traitement des erreurs de données est supporté avec la méthode de mise à jour Change Data Capture (CDC) uniquement.
Pour les erreurs de troncation de données : Sélectionnez ce que vous souhaitez qu'il se passe en cas de troncation dans un ou plusieurs enregistrements spécifiques. Vous pouvez sélectionner un des comportements suivants dans la liste :
- Ignorer : La tâche se poursuit et l'erreur est ignorée.
- Suspendre la table : La tâche se poursuit, mais les données de la table comportant l'enregistrement d'erreur passent à l'état d'erreur et ne sont pas répliquées.
- Arrêter la tâche : La tâche est arrêtée et une intervention manuelle est requise.
Pour d'autres erreurs de données : Sélectionnez ce que vous souhaitez qu'il se passe en cas d'erreur dans un ou plusieurs enregistrements spécifiques. Vous pouvez sélectionner un des comportements suivants dans la liste :
- Ignorer : La tâche se poursuit et l'erreur est ignorée.
- Suspendre la table : La tâche se poursuit, mais les données de la table comportant l'enregistrement d'erreur passent à l'état d'erreur et ne sont pas répliquées.
- Arrêter la tâche : La tâche est arrêtée et une intervention manuelle est requise.
Remonter le traitement des erreurs lorsque d'autres erreurs de données atteignent (par table) : Cochez cette case pour faire remonter le traitement des erreurs lorsque le nombre d'erreurs de données hors troncation (par table) atteint la quantité spécifiée. Les valeurs valides vont de 1 à 10 000.
Action de remontée : Sélectionnez ce qui doit se produire en cas de remontée du traitement des erreurs. Notez que les actions disponibles dépendent de l'action sélectionnée dans la liste déroulante Pour d'autres erreurs de données décrite ci-dessus.
-
Suspendre la table (par défaut) : La tâche se poursuit, mais les données de la table comportant l'enregistrement d'erreur passent à l'état d'erreur et ne font pas l'objet d'une tâche landed.
- Arrêter la tâche : La tâche est arrêtée et une intervention manuelle est requise.
Erreurs de table
En cas d'erreur de table : Sélectionnez un des comportements suivants dans la liste déroulante :
- Suspendre la table (par défaut) : La tâche se poursuit, mais les données de la table comportant l'enregistrement d'erreur passent à l'état d'erreur et ne sont pas répliquées.
- Arrêter la tâche : La tâche est arrêtée et une intervention manuelle est requise.
Remonter le traitement des erreurs lorsque les erreurs de table atteignent (par table) : Cochez cette case pour faire remonter le traitement des erreurs lorsque le nombre d'erreurs de table (par table) atteint la quantité spécifiée. Les valeurs valides vont de 1 à 10 000.
Action de remontée : La stratégie de remontée des erreurs de table est définie sur Arrêter la tâche et ne peut pas être modifiée.
Environnemental
-
Nombre maximal de nouvelles tentatives : Sélectionnez cette option, puis spécifiez le nombre maximal de nouvelles tentatives d'exécution d'une tâche en cas d'erreur d'environnement récupérable. Une fois que l'exécution de la tâche a été tentée le nombre de fois spécifié, la tâche est arrêtée et une intervention manuelle est requise.
Pour ne jamais retenter l'exécution d'une tâche, décochez la case ou spécifiez la valeur "0".
Pour retenter l'exécution d'une tâche un nombre infini de fois, spécifiez la valeur "-1".
-
Intervalle entre les nouvelles tentatives (secondes) : Utilisez le compteur pour sélectionner une valeur ou saisissez le nombre de secondes pendant lequel le système attend entre les tentatives de réexécution d'une tâche.
Les valeurs valides vont de 0 à 2 000.
-
- Augmenter l'intervalle de nouvelle tentative pour les longues interruptions : Cochez cette case pour augmenter l'intervalle de nouvelle tentative pour les longues interruptions. Lorsque cette option est activée, l'intervalle entre chaque nouvelle tentative et la suivante est multiplié par deux, jusqu'à atteindre l'Intervalle de nouvelle tentative maximal (et les tentatives se poursuivent conformément à l'intervalle maximal spécifié).
- Intervalle de nouvelle tentative maximal (secondes) : Utilisez le compteur pour sélectionner une valeur ou saisissez le nombre de secondes d'attente entre les tentatives de réexécution d'une tâche lorsque l'option Augmenter l'intervalle de nouvelle tentative pour les longues interruptions est activée. Les valeurs valides vont de 0 à 2 000.
Modifier le réglage du traitement
Réglage du déchargement transactionnel
-
Décharger les transactions en cours sur le disque si :
Les données de transaction sont généralement conservées en mémoire jusqu'à ce qu'elles soient entièrement validées dans la source ou la cible. En revanche, les transactions dont la taille est supérieure à la mémoire allouée ou qui ne sont pas validées dans le délai spécifié seront déchargées sur le disque.
- La taille de mémoire de transactions totale dépasse (Mo) : taille maximale que l'ensemble des transactions peuvent occuper en mémoire avant d'être déchargées du disque. La valeur par défaut est 1 024.
- La durée des transactions dépasse (secondes) : durée maximale pendant laquelle chaque transaction peut rester en mémoire avant son déchargement sur le disque. La durée est calculée à partir du moment où la Qlik Talend Data Integration démarre la capture de la transaction. La valeur par défaut est 60.
Réglage des lots
Certains des paramètres de cet onglet
Paramètres applicables à toutes les cibles, sauf Qlik Cloud :
- Appliquer les modifications par lots par intervalles :
-
Supérieur à : durée d'attente minimale entre chaque application de modifications par lots. La valeur par défaut est 1.
L'augmentation de la valeur Supérieur à réduit la fréquence d'application des modifications à la cible tout en augmentant la taille des lots. Cela peut améliorer les performances lors de l'application de modifications à des bases de données cibles optimisées pour le traitement de lots volumineux.
- Inférieur à : durée d'attente maximale entre chaque application de modifications par lots (avant la déclaration d'une expiration de délai). En d'autres termes, il s'agit de la latence maximale acceptable. La valeur par défaut est 30. Cette valeur détermine la durée d'attente maximale avant l'application des modifications, une fois la valeur Supérieur à atteinte.
-
Forcer l'application d'un traitement par lots lorsque la mémoire de traitement dépasse (Mo) : quantité maximale de mémoire à utiliser pour le prétraitement. La valeur par défaut est 500 Mo.
Pour une taille de lot maximale, définissez cette valeur sur la plus grande quantité de mémoire que vous puissiez allouer à la tâche de données. Cela peut améliorer les performances lors de l'application de modifications à des bases de données cibles optimisées pour le traitement de lots volumineux.
-
Appliquer les modifications par lots à plusieurs tables en même temps : la sélection de cette option devrait améliorer les performances lors de l'application de modifications provenant de différentes tables sources.
-
Nombre maximal de tables : Nombre maximal de tables auxquelles simultanément appliquer les modifications par lots. La valeur par défaut est cinq.
Note InformationsCette option n'est pas supportée lors de l'utilisation de Google BigQuery comme plateforme de données. -
-
Limiter le nombre de modifications appliquées par instruction de traitement des modifications à : sélectionnez cette option pour limiter le nombre de modifications appliquées dans une seule instruction de traitement des modifications. La valeur par défaut est 10 000.
Note InformationsCette option est supportée uniquement lors de l'utilisation de Google BigQuery comme plateforme de données.
Paramètres concernant uniquement Qlik Cloud :
-
Nombre minimal de modifications par transaction : nombre minimal de modifications à inclure dans chaque transaction. La valeur par défaut est 1 000.
Note InformationsLes modifications seront appliquées à la cible SOIT lorsque le nombre de modifications est supérieur ou égal à la valeur Nombre minimal de modifications par transaction, SOIT lorsque la valeur Durée maximale de mise en lots des transactions avant application (secondes) décrite ci-dessous est atteinte - suivant la première occurrence. Étant donné que la fréquence des modifications appliquées à la cible est contrôlée par ces deux paramètres, il se peut que les modifications appliquées aux enregistrements sources ne soient pas immédiatement reflétées dans les enregistrements cibles.
- Durée maximale de mise en lots des transactions avant application (secondes) : durée de collecte maximale des transactions par lots avant la déclaration de l'expiration du délai. La valeur par défaut est 1.
Intervalle
-
Lire les modifications toutes les (minutes)
Définissez l'intervalle entre le relevé des modifications de la source en minutes. La plage valide est comprise entre 1 et 1 440.
Note InformationsCette option est disponible uniquement dans les cas suivants :
- En utilisant Data Movement gateway
- Dépôt temporaire de données depuis des sources d’applications SaaS
- La tâche est définie à l'aide de la méthode de mise à jour Change Data Capture (CDC).
Réglage divers
- Taille de cache des instructions (nombre d'instructions) : Nombre maximal d'instructions préparées à stocker sur le serveur pour une exécution ultérieure (lors de l'application des modifications à la cible). La valeur par défaut est 50. La valeur maximale est 200.
-
DELETE et INSERT lors de la mise à jour d'une colonne de clé primaire : Cette option nécessite l'activation de la journalisation supplémentaire complète dans la base de données source.
Évolution du schéma
Choisissez comment gérer les types suivants de modifications des DDL dans le schéma. Si vous avez modifié les paramètres d'évolution du schéma, vous devez préparer de nouveau la tâche. Le tableau ci-dessous décrit les actions disponibles pour les modifications des DDL supportées.
Modification de DDL | Appliquer à la cible | Ignoré | Suspendre la table | Arrêter la tâche |
---|---|---|---|---|
Ajouter une colonne | Oui | Oui | Oui | Oui |
Renommer la colonne | Non | Non | Oui | Oui |
Renommer la table | Non | Non | Oui | Oui |
Modifier le type de données de la colonne | Non | Oui | Oui | Oui |
Créer une table
Si vous avez utilisé une Règle de sélection pour ajouter des jeux de données correspondant à un pattern, les nouvelles tables répondant au pattern seront détectées et ajoutées. |
Oui | Oui | Non | Non |
Substitution de caractère
Vous pouvez substituer ou supprimer des caractères sources dans la base de données cible et/ou vous pouvez substituer ou supprimer des caractères sources non pris en charge par un jeu de caractères sélectionné.
-
Tous les caractères doivent être spécifiés sous forme de points de code Unicode.
- La substitution de caractères sera également appliquée aux tables de contrôle.
-
Les valeurs non valides seront indiquées par un triangle rouge dans le coin supérieur droit de la cellule de table. Le survol du triangle à l'aide du curseur de la souris affichera le message d'erreur.
-
Toute transformation globale ou au niveau de la table définie pour la tâche sera effectuée à la fin de la substitution de caractères.
-
Les actions de substitution définies dans la table Substituer ou supprimer des caractères sources sont effectuées avant l'action de substitution définie dans la table Substituer ou supprimer des caractères sources non pris en charge par le jeu de caractères sélectionné.
- La substitution de caractères ne prend pas en charge les types de données LOB.
Substitution ou suppression de caractères sources
Utilisez la table Substituer ou supprimer des caractères sources pour définir les remplacements de caractères sources spécifiques. Cela peut s'avérer utile, par exemple, lorsque la représentation Unicode d'un caractère est différente sur les plates-formes source et cible. Par exemple, sous Linux, le caractère moins du jeu de caractères Shift_JIS est représenté par U+2212, alors que, sous Windows, il est représenté par U+FF0D.
Pour | Procédez comme suit |
---|---|
Définissez des actions de substitution. |
|
Édition du caractère source ou cible spécifié |
Cliquez sur à la fin de la ligne et sélectionnez Éditer. |
Suppression d'entrées de la table |
Cliquez sur à la fin de la ligne et sélectionnez Supprimer. |
Substitution ou suppression de caractères sources non pris en charge par le jeu de caractères sélectionné
Utilisez la table Caractères sources non pris en charge par jeu de caractères pour définir un seul caractère de remplacement pour tous les caractères non pris en charge par le jeu de caractères sélectionné.
Pour | Procédez comme suit |
---|---|
Définir ou modifier une action de substitution. |
|
Désactiver l'action de substitution. |
Sélectionnez l'entrée vide dans la liste déroulante Jeu de caractères. |
Autres options
Ces options ne sont pas exposées dans l'IU, car elles s'appliquent uniquement à des versions ou des environnements spécifiques. Par conséquent, n'activez pas ces options, sauf si Qlik Support ou la documentation produits vous le demande explicitement.
Pour activer une option, il suffit de la copier dans le champ Ajouter un nom de fonction et de cliquer sur Ajouter. Définissez ensuite la valeur ou activez l'option en fonction des instructions que vous avez reçues.
Planification de tâches CDC sans utiliser Data Movement gateway
Data Movement gateway n'est pas supporté avec un abonnement Démarreur Qlik Talend Cloud et est en option avec d'autres niveaux d'abonnement. Si vous n'utilisez pas Data Movement gateway, vous maintenez les données cibles à jour en définissant un intervalle de planification. La planification détermine la fréquence à laquelle les jeux de données cibles seront mis à jour en fonction des modifications apportées aux jeux de données sources. Alors que la planification détermine la fréquence de mise à jour, le type du jeu de données détermine la méthode de mise à jour. Si les jeux de données sources supportent CDC (Change Data Capture), seules les modifications apportées aux données sources seront répliquées et appliquées aux tables cibles correspondantes. Si les jeux de données sources ne supportent pas CDC (par exemple, les Vues), les modifications seront appliquées via l'actualisation de l'ensemble des données sources dans les tables cibles correspondantes. Si certains des jeux de données sources supportent CDC et d'autres non, deux sous-tâches distinctes seront créées : l'une pour actualiser les jeux de données qui ne supportent pas CDC et l'autre pour capturer les modifications apportées aux jeux de données qui supportent CDC. Dans ce cas, pour garantir la cohérence des données, il est vivement conseillé de définir la même planification pour les deux sous-tâches.
Pour des informations sur les intervalles de planification minimaux en fonction du type de source de données et du niveau d'abonnement, consultez Intervalles de planification minimaux autorisés.
Pour modifier la planification :
Ouvrez votre projet de données, puis effectuez l'une des opérations suivantes :
- Dans la vue Tâches, cliquez sur sur la tâche de données et sélectionnez Planification.
- Dans la vue Pipeline, cliquez sur sur la tâche de données et sélectionnez Planification.
- Ouvrez la tâche de dépôt temporaire et cliquez sur le bouton de barre d'outils Planification.
- Modifiez les paramètres de planification selon les besoins et cliquez sur OK.