Paramètres de dépôt temporaire de flux dans un lac
Les paramètres de tâche de dépôt temporaire de flux dans un lac suivants s'appliquent aux projets Qlik Open Lakehouse qui utilisent une source de flux.
Général
Dossier à utiliser
Sélectionnez le dossier à utiliser lors du dépôt temporaire de données dans la zone intermédiaire.
-
Dossier par défaut
Cela crée un dossier portant le nom par défaut suivant : <nom de projet>/<nom de tâche de données>.
-
Dossier racine
Conservez les données dans le dossier racine du stockage.
-
Dossier
Indiquez le nom de dossier à utiliser.
Rétention des dossiers
Sélectionnez la durée de conservation des données :
-
Les données et les métadonnées ne sont pas supprimées : ni les données, ni les métadonnées ne sont supprimées.
-
Supprimer les données et métadonnées après la période de rétention : les données et les métadonnées sont supprimées une fois la période de rétention écoulée.
-
Supprimer les métadonnées après la période de rétention. Les données sont supprimées par un système externe.Les données sont définitivement supprimées après l'expiration de cette période. Les métadonnées sont purgées, mais les données sous-jacentes, par exemple, l'objet S3, ne sont pas supprimées par Qlik.
Lire les données depuis
Sélectionnez le moment d'ingestion des données :
-
Démarrer maintenant
Ingérez uniquement les événements qui arrivent lorsque le pipeline démarre.
-
Démarrer depuis l'événement le plus ancien (par défaut)
Ingérez toutes les données historiques.
Type de contenu
Sélectionnez le format de fichier dans la liste, par exemple, JSON ou CSV. Cela peut être modifié après l'exécution de la tâche en recréant la tâche. Consultez Types de contenu pour des informations détaillées sur chaque format de fichier.
Évolution du schéma
Nouvelle rubrique/Nouveau fluxSélectionnez le mode de gestion des nouveaux flux/nouvelles rubriques.
-
Ajouter à la cible : si vous chargez toutes les tables dans une seule table cible, les nouvelles données sont ajoutées à cette table. Si vous chargez chaque rubrique dans un jeu de données différent, une nouvelle rubrique est ajoutée à un nouveau jeu de données.
-
Ignorer : les nouvelles données ne sont pas ajoutées à la cible.
Durée d'exécution
Nombre de lecteurs
-
Apache Kafka : sélectionnez le nombre de lecteurs à utiliser. La valeur doit être comprise entre 1 et 1 000.
-
Amazon Kinesis : sélectionnez le nombre de shards (partitions) de flux.
-
Amazon S3 : ce paramètre n'est pas applicable aux sources de flux S3.
Cluster du lakehouse
Sélectionnez le cluster de flux. La tâche de dépôt temporaire de flux et les tâches de transformation de flux n'ont pas besoin de se trouver sur le même cluster, mais elles doivent être sur la même intégration réseau.
Types de contenu
Les paramètres suivants s'appliquent à chaque format de fichier.
-
JSON
-
Il s'agit du format de fichier par défaut, s'il n'est pas défini autrement.
-
-
CSV et TSV
-
La première ligne contient les en-têtes : sélectionné par défaut pour spécifier que la première ligne contient l'enregistrement d'en-tête.
-
Ligne d'en-tête(facultatif) : si la première ligne n'est pas l'en-tête, définissez les noms d'en-tête.
-
Délimiteur : sélectionnez le délimiteur par défaut s'il ne s'agit pas de celui par défaut (virgule pour CSV, tabulation pour TSV).
-
Caractère d'échappement de guillemet : sélectionnez le caractère d'échappement de guillemet par défaut s'il ne s'agit pas d'un guillemet double tel que défini par défaut.
-
Valeur nulle (facultatif) : saisissez la valeur nulle de remplacement.
-
Autoriser les en-têtes en doublon : si deux colonnes portent le même nom, la deuxième est ajoutée avec un nom différent.
-
-
Parquet, Avro et ORC
-
Aucun paramètre supplémentaire ne nécessite de configuration.
-
-
Regex
-
Modèle : saisissez le modèle d'expression régulière.
-
Multiligne : sélectionné par défaut.
-
-
Fractionner les lignes :
-
Regex : saisissez l'expression régulière pour le fractionnement.
-