Stockage de jeux de données de flux
Les paramètres de tâche de transformation de flux suivants s'appliquent aux projets Qlik Open Lakehouse qui utilisent une source de flux.
Vous pouvez stocker et transformer les données de flux à l'aide de la tâche de données de transformation de flux. Les données de flux contiennent souvent des structures et des séquences imbriquées qui nécessitent un aplatissement, et il est nécessaire d'avoir recours à des fonctionnalités de transformation lors de la phase de stockage. Ces fonctionnalités sont disponibles pour la tâche de transformation de flux, vous permettant d'appliquer des transformations immédiatement après le dépôt temporaire de vos données de flux.
Gestion de la granularité des jeux de données
Vous pouvez aplatir les structures et les séquences imbriquées pour augmenter la granularité. La granularité est affichée dans la vue Jeu de données. Cliquez sur pour modifier la granularité :
-
La sélection d'un champ d'une séquence entraînera l'inclusion dans la table cible d'une ligne par élément. Cela augmentera le nombre de lignes dans la cible.
-
Vous devez sélectionner des champs provenant du même chemin d'accès à la séquence. La sélection de champs provenant de chemins d'accès différents entraînera une erreur de validation.
-
Les types de données affichés reflètent la granularité sélectionnée. Par exemple, une valeur ARRAY<INT> devient INT lorsqu'elle est aplatie. Pour plus d'informations, consultez Mappage de types de données.
Affichage des informations sur les tâches
Cliquez sur dans la barre de menus pour afficher les informations sur les tâches telles que :
-
Propriétaire
-
Espace
-
Plateforme de données
-
ID de projet
-
ID d'exécution de la tâche de données
Paramètres de transformation de flux
Paramètres de stockage
Vous pouvez définir les propriétés de la tâche de données de transformation de flux lorsque la plateforme de données est Qlik Open Lakehouse.
-
Cliquez sur Paramètres.
Paramètres généraux
-
Schéma de tâche
Vous pouvez modifier le nom du schéma de la tâche de transformation de flux. Le nom par défaut correspond au nom de la tâche de stockage.
-
Schéma interne
Vous pouvez modifier le nom du schéma de ressource de données de stockage interne. Le nom par défaut correspond au nom de la tâche de stockage auquel _internal est ajouté.
- Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.
Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique. -
Dossier à utiliser
Vous pouvez modifier le dossier de stockage de la tâche de transformation de flux.
-
Charger les paramètres pour les nouveaux jeux de données
-
Écrire à la suite uniquement
Ajoute de nouveaux enregistrements sans modifier les données existantes. Si des enregistrements en double arrivent, les contraintes de clé ne sont pas appliquées.
-
Appliquer les modifications
Met à jour les enregistrements existants et insère de nouveaux enregistrements en se basant sur les champs de clé.
Si vous choisissez de fusionner les modifications, vous pouvez également sélectionner les opérations suivantes :
-
Supprimer les enregistrements de manière réversible en fournissant une expression de suppression
Définissez une expression de suppression pour marquer les enregistrements à supprimer.
-
Conserver les enregistrements historiques (Type 2)
Conservez les versions précédentes des enregistrements modifiés.
-
-
-
Désimbrication des colonnes
-
Préserver les colonnes imbriquées
Sélectionnez cette option pour préserver les données imbriquées.
-
Désimbriquer en colonnes séparées
Le comportement par défaut consiste à désimbriquer les données dans des colonnes distinctes.
-
-
Partition des tables cibles
Note InformationsCette option est uniquement disponible lorsque Écrire à la suite uniquement est sélectionné dans Paramètres de chargement.-
Aucune partition
Les nouvelles tables sont créées sans partitions.
-
Partitionner par date d'événement
Les nouvelles tables sont partitionnées en fonction de l'ingestion des événements de date.
-
-
Manipulation des modifications de données
Note InformationsCette option est uniquement disponible lorsque Appliquer les modifications est sélectionné dans Paramètres de chargement.-
Inclure les suppressions réversibles : saisissez une expression pour définir les enregistrements à marquer à des fins de suppression.
-
Créer un data store historique (Type 2) : cette option conservera les versions précédentes des enregistrements modifiés.
-
- Gestion de la rétention
-
Pas de nettoyage des partitions
-
Nettoyage actuel des partitions d'instantanés
-
Paramètres d'exécution
-
Cluster du lakehouse
Vous pouvez modifier le cluster du lakehouse, mais celui-ci doit supporter les charges de travail de flux ou les charges de travail mixtes.
Paramètres d'évolution du schéma
-
Ajouter des colonnes au niveau racine
Ce paramètre s'applique lorsque de nouvelles colonnes sont ajoutées à la tâche de dépôt temporaire de flux, au niveau racine.
-
Appliquer à la cible
Ajoute automatiquement de nouvelles colonnes au niveau racine de la tâche de dépôt temporaire de flux à la tâche de transformation de flux. Il s'agit du paramètre par défaut.
-
Ignorer
N'ajoute pas de nouvelles colonnes au niveau racine.
-
Arrêter la tâche
Arrête la tâche de transformation si une nouvelle colonne au niveau racine est détectée dans la tâche de dépôt temporaire de flux.
-
-
Ajouter des colonnes aux structures
Ce paramètre s'applique lorsque de nouveaux champs sont ajoutés dans une structure imbriquée existante dans la tâche de dépôt temporaire de flux.
- Appliquer à la cible
Ajoute automatiquement de nouveaux champs aux structures existantes dans la tâche de transformation de flux s'ils sont ajoutés à la structure de dépôt temporaire.
-
Ignorer
N'ajoute pas de nouveaux champs aux structures existantes.
-
Arrêter la tâche
Arrête la tâche de transformation si un nouveau champ est ajouté à une structure dans la tâche de dépôt temporaire de flux.
- Appliquer à la cible
-
Modifier le type de données du champ
- Ignorer
Ne modifie pas le type de données.
-
Arrêter la tâche
Arrête la tâche de transformation si un changement de type de données est détecté dans la tâche de dépôt temporaire de flux.
- Ignorer
Paramètres du jeu de données
Les paramètres suivants sont disponibles pour tous les jeux de données dans la vue Conception > Jeux de données.
Cliquez sur à côté du jeu de données et sélectionnez Paramètres.
-
Manipulation des chargements de données
Sélectionnez le mode de chargement des données dans la table cible.
-
Écrire à la suite uniquement
Ajoute de nouveaux enregistrements sans modifier les données existantes. Si des enregistrements en double arrivent, les contraintes de clé ne sont pas appliquées.
-
Appliquer les modifications
Met à jour les enregistrements existants et insère de nouveaux enregistrements en se basant sur les champs de clé.
-
-
Manipulation des modifications de données
Note InformationsCette option est uniquement disponible lorsque Appliquer les modifications est sélectionné dans Paramètres de chargement.-
Inclure les suppressions réversibles : saisissez une expression pour définir les enregistrements à marquer à des fins de suppression. Il devrait s'agir d'une expression évaluée sur true si la modification est une suppression réversible.
Exemple : operation = 'D'
-
Créer un data store historique (Type 2) : cette option conservera les versions précédentes des enregistrements modifiés.
-
-
Partition columns
Vous pouvez éventuellement sélectionner des colonnes de partitions pour optimiser les performances.
Cliquez sur Ajouter une colonne pour ajouter une colonne de partition, puis sélectionnez une Transformation et définissez un Paramètre, si nécessaire.
-
Gestion de la rétention
Le nettoyage des partitions supprime les partitions qui sont plus anciennes que la période de rétention. Cela ne supprime pas physiquement les données et n'a pas d'impact immédiat sur les instantanés plus anciens. Les données plus anciennes peuvent être disponibles dans des instantanés plus anciens jusqu'à leur expiration.
Note InformationsCela apparaît uniquement si la partition contient au moins une colonne date ou datetime.-
Pas de nettoyage des partitions
-
Nettoyage actuel des partitions d'instantanés
-
-
Trier les colonnes
Note InformationsCette option est uniquement disponible lorsque Écrire à la suite uniquement est sélectionné dans Paramètres de chargement.Vous pouvez éventuellement spécifier les colonnes en fonction desquelles trier les données au sein de chaque fichier de votre table Iceberg. Lors de l'ingestion des données, Iceberg utilise ces colonnes pour trier les enregistrements. Définir des clés de tri sur des colonnes fréquemment utilisées dans des requêtes améliore la localité des données, ce qui conduit à une lecture plus rapide et une compression de données plus efficace. Des clés de tri correctement configurées assurent une organisation optimale de vos données pour les performances des requêtes.
Cliquez sur Ajouter une colonne pour ajouter une colonne de tri, puis définissez l'ordre de tri.
-
Durée avant expiration de l'instantané
Ce paramètre contrôle la durée de rétention des instantanés, ce qui affecte de manière significative la taille des tables et les coûts de stockage. Pour les tables fréquemment mises à jour, une durée plus petite est recommandée, afin de réduire les coûts de stockage.
Note InformationsSaisissez 0 pour désactiver l'expiration des instantanés.