Accéder au contenu principal Passer au contenu complémentaire

Stockage de jeux de données de flux

Les paramètres de tâche de transformation de flux suivants s'appliquent aux projets Qlik Open Lakehouse qui utilisent une source de flux.

Vous pouvez stocker et transformer les données de flux à l'aide de la tâche de données de transformation de flux. Les données de flux contiennent souvent des structures et des séquences imbriquées qui nécessitent un aplatissement, et il est nécessaire d'avoir recours à des fonctionnalités de transformation lors de la phase de stockage. Ces fonctionnalités sont disponibles pour la tâche de transformation de flux, vous permettant d'appliquer des transformations immédiatement après le dépôt temporaire de vos données de flux.

Gestion de la granularité des jeux de données

Vous pouvez aplatir les structures et les séquences imbriquées pour augmenter la granularité. La granularité est affichée dans la vue Jeu de données. Cliquez sur modifier pour modifier la granularité :

  • La sélection d'un champ d'une séquence entraînera l'inclusion dans la table cible d'une ligne par élément. Cela augmentera le nombre de lignes dans la cible.

  • Vous devez sélectionner des champs provenant du même chemin d'accès à la séquence. La sélection de champs provenant de chemins d'accès différents entraînera une erreur de validation.

  • Les types de données affichés reflètent la granularité sélectionnée. Par exemple, une valeur ARRAY<INT> devient INT lorsqu'elle est aplatie. Pour plus d'informations, consultez Mappage de types de données.

Affichage des informations sur les tâches

Cliquez sur Informations dans la barre de menus pour afficher les informations sur les tâches telles que :

  • Propriétaire

  • Espace

  • Plateforme de données

  • ID de projet

  • ID d'exécution de la tâche de données

Paramètres de transformation de flux

Paramètres de stockage

Vous pouvez définir les propriétés de la tâche de données de transformation de flux lorsque la plateforme de données est Qlik Open Lakehouse.

  • Cliquez sur Paramètres.

Paramètres généraux

  • Schéma de tâche

    Vous pouvez modifier le nom du schéma de la tâche de transformation de flux. Le nom par défaut correspond au nom de la tâche de stockage.

  • Schéma interne

    Vous pouvez modifier le nom du schéma de ressource de données de stockage interne. Le nom par défaut correspond au nom de la tâche de stockage auquel _internal est ajouté.

  • Préfixe de l'ensemble des tables et des vues

    Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.

    Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique.
  • Dossier à utiliser

    Vous pouvez modifier le dossier de stockage de la tâche de transformation de flux.

  • Charger les paramètres pour les nouveaux jeux de données

    • Écrire à la suite uniquement

      Ajoute de nouveaux enregistrements sans modifier les données existantes. Si des enregistrements en double arrivent, les contraintes de clé ne sont pas appliquées.

    • Appliquer les modifications

      Met à jour les enregistrements existants et insère de nouveaux enregistrements en se basant sur les champs de clé.

      Si vous choisissez de fusionner les modifications, vous pouvez également sélectionner les opérations suivantes :

      • Supprimer les enregistrements de manière réversible en fournissant une expression de suppression

        Définissez une expression de suppression pour marquer les enregistrements à supprimer.

      • Conserver les enregistrements historiques (Type 2)

        Conservez les versions précédentes des enregistrements modifiés.

  • Désimbrication des colonnes

    • Préserver les colonnes imbriquées

      Sélectionnez cette option pour préserver les données imbriquées.

    • Désimbriquer en colonnes séparées

      Le comportement par défaut consiste à désimbriquer les données dans des colonnes distinctes.

  • Partition des tables cibles

    Note InformationsCette option est uniquement disponible lorsque Écrire à la suite uniquement est sélectionné dans Paramètres de chargement.
    • Aucune partition

      Les nouvelles tables sont créées sans partitions.

    • Partitionner par date d'événement

      Les nouvelles tables sont partitionnées en fonction de l'ingestion des événements de date.

  • Manipulation des modifications de données

    Note InformationsCette option est uniquement disponible lorsque Appliquer les modifications est sélectionné dans Paramètres de chargement.
    • Inclure les suppressions réversibles : saisissez une expression pour définir les enregistrements à marquer à des fins de suppression.

    • Créer un data store historique (Type 2) : cette option conservera les versions précédentes des enregistrements modifiés.

  • Gestion de la rétention
    • Pas de nettoyage des partitions

    • Nettoyage actuel des partitions d'instantanés

Paramètres d'exécution

  • Cluster du lakehouse

    Vous pouvez modifier le cluster du lakehouse, mais celui-ci doit supporter les charges de travail de flux ou les charges de travail mixtes.

Paramètres d'évolution du schéma

  • Ajouter des colonnes au niveau racine

    Ce paramètre s'applique lorsque de nouvelles colonnes sont ajoutées à la tâche de dépôt temporaire de flux, au niveau racine.

    • Appliquer à la cible

      Ajoute automatiquement de nouvelles colonnes au niveau racine de la tâche de dépôt temporaire de flux à la tâche de transformation de flux. Il s'agit du paramètre par défaut.

    • Ignorer

      N'ajoute pas de nouvelles colonnes au niveau racine.

    • Arrêter la tâche

      Arrête la tâche de transformation si une nouvelle colonne au niveau racine est détectée dans la tâche de dépôt temporaire de flux.

  • Ajouter des colonnes aux structures

    Ce paramètre s'applique lorsque de nouveaux champs sont ajoutés dans une structure imbriquée existante dans la tâche de dépôt temporaire de flux.

    • Appliquer à la cible

      Ajoute automatiquement de nouveaux champs aux structures existantes dans la tâche de transformation de flux s'ils sont ajoutés à la structure de dépôt temporaire.

    • Ignorer

      N'ajoute pas de nouveaux champs aux structures existantes.

    • Arrêter la tâche

      Arrête la tâche de transformation si un nouveau champ est ajouté à une structure dans la tâche de dépôt temporaire de flux.

  • Modifier le type de données du champ

    • Ignorer

      Ne modifie pas le type de données.

    • Arrêter la tâche

      Arrête la tâche de transformation si un changement de type de données est détecté dans la tâche de dépôt temporaire de flux.

Paramètres du jeu de données

Les paramètres suivants sont disponibles pour tous les jeux de données dans la vue Conception > Jeux de données.

Cliquez sur plus à côté du jeu de données et sélectionnez Paramètres.

  • Manipulation des chargements de données

    Sélectionnez le mode de chargement des données dans la table cible.

    • Écrire à la suite uniquement

      Ajoute de nouveaux enregistrements sans modifier les données existantes. Si des enregistrements en double arrivent, les contraintes de clé ne sont pas appliquées.

    • Appliquer les modifications

      Met à jour les enregistrements existants et insère de nouveaux enregistrements en se basant sur les champs de clé.

  • Manipulation des modifications de données

    Note InformationsCette option est uniquement disponible lorsque Appliquer les modifications est sélectionné dans Paramètres de chargement.
    • Inclure les suppressions réversibles : saisissez une expression pour définir les enregistrements à marquer à des fins de suppression. Il devrait s'agir d'une expression évaluée sur true si la modification est une suppression réversible.

      Exemple : operation = 'D'

    • Créer un data store historique (Type 2) : cette option conservera les versions précédentes des enregistrements modifiés.

  • Partition columns

    Vous pouvez éventuellement sélectionner des colonnes de partitions pour optimiser les performances.

    Cliquez sur Ajouter une colonne pour ajouter une colonne de partition, puis sélectionnez une Transformation et définissez un Paramètre, si nécessaire.

  • Gestion de la rétention   

    Le nettoyage des partitions supprime les partitions qui sont plus anciennes que la période de rétention. Cela ne supprime pas physiquement les données et n'a pas d'impact immédiat sur les instantanés plus anciens. Les données plus anciennes peuvent être disponibles dans des instantanés plus anciens jusqu'à leur expiration.

    Note InformationsCela apparaît uniquement si la partition contient au moins une colonne date ou datetime.
    • Pas de nettoyage des partitions

    • Nettoyage actuel des partitions d'instantanés

  • Trier les colonnes

    Note InformationsCette option est uniquement disponible lorsque Écrire à la suite uniquement est sélectionné dans Paramètres de chargement.

    Vous pouvez éventuellement spécifier les colonnes en fonction desquelles trier les données au sein de chaque fichier de votre table Iceberg. Lors de l'ingestion des données, Iceberg utilise ces colonnes pour trier les enregistrements. Définir des clés de tri sur des colonnes fréquemment utilisées dans des requêtes améliore la localité des données, ce qui conduit à une lecture plus rapide et une compression de données plus efficace. Des clés de tri correctement configurées assurent une organisation optimale de vos données pour les performances des requêtes.

    Cliquez sur Ajouter une colonne pour ajouter une colonne de tri, puis définissez l'ordre de tri.

  • Durée avant expiration de l'instantané

    Ce paramètre contrôle la durée de rétention des instantanés, ce qui affecte de manière significative la taille des tables et les coûts de stockage. Pour les tables fréquemment mises à jour, une durée plus petite est recommandée, afin de réduire les coûts de stockage.

    Note InformationsSaisissez 0 pour désactiver l'expiration des instantanés.

 

 

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.