Données de flux
Le processus d'intégration transfère les données de la source et les stocke dans des tables Iceberg. Les modifications apportées aux sources de données de flux sont appliquées en continu aux tables de stockage quasiment en temps réel.
Intégration des données
Les données sont intégrées dans un projet de pipeline et les jeux de données sont stockés à l'emplacement S3 défini dans les paramètres du projet.
-
Dans votre projet, cliquez sur Créer, puis sur Intégrer les données.
-
Ajoutez un Nom de tâche et une Description facultative pour l'intégration.
Cliquez sur Suivant.
-
Sélectionnez la connexion source.
Vous pouvez sélectionner une connexion source de flux existante ou créer une nouvelle connexion à la source.
Pour plus d'informations, consultez Connexion à des flux de données.
Cliquez sur Suivant et suivez les instructions ci-dessous pour votre source de données.
Sélection des données
Apache Kafka et Amazon Kinesis
La liste affiche les rubriques Kafka ou les flux Kinesis disponibles à partir de l'hôte défini dans la connexion source.
Lors de la sélection de vos rubriques/flux, vous pouvez sélectionner des jeux de données spécifiques ou utiliser des règles de sélection pour inclure ou exclure des groupes de jeux de données :
-
Utilisez % comme caractère générique pour définir des critères de sélection pour les jeux de données.
-
%.% définit tous les jeux de données dans tous les flux.
Si des rubriques sont sélectionnées à l'aide de règles de sélection, vous pouvez choisir de charger tous les jeux de données dans la même table cible ou de créer une table cible distincte pour chaque rubrique source :
-
Par défaut, le nom de la table Iceberg cible est dérivé du nom de la rubrique, formaté de sorte à être conforme aux conventions de nommage, par exemple, en minuscules, avec les espaces supprimés et les tirets remplacés par des traits de soulignement. Dans Définir le nom du jeu de données cible, vous pouvez modifier le nom de la table cible.
-
Lorsque des règles de sélection sont utilisées pour charger plusieurs rubriques dans une seule table, vous devez fournir le nom cible.
-
Lorsque des règles de sélection sont utilisées et que les données sont chargées dans des tables distinctes (un jeu de données par rubrique), les noms cibles par défaut sont les noms de rubrique. À ce stade, vous ne pouvez pas modifier les noms dans l'assistant, mais cela peut être fait ultérieurement dans la tâche de dépôt temporaire.
-
Si une règle est configurée de sorte à sélectionner des rubriques à ingérer, toutes les nouvelles rubriques qui répondent aux critères de la règle sont également déposées temporairement si l'option Nouvelle rubrique > Ajouter à la cible sous l'évolution du schéma dans les paramètres de la tâche de dépôt temporaire est cochée.
Sélectionnez un ou plusieurs jeux de données, puis cliquez sur Ajouter les flux sélectionnés. Vous pouvez voir les jeux de données ajoutés sous Flux explicitement sélectionnés. Cliquez sur Suivant.
Amazon S3
Le navigateur de répertoires affiche une liste de tous les répertoires situés dans le compartiment S3 de votre connexion source.
-
Sélectionnez les répertoires à inclure lors du dépôt temporaire de données :
-
Pour chaque répertoire, dans Ajouter un chemin d'accès, saisissez le chemin d'accès et le modèle de nom de fichier :
-
Utilisez * comme caractère générique pour mettre en correspondance n'importe quel caractère.
-
Pour saisir un modèle de date, utilisez <yyyy> comme espace réservé pour l'année à quatre chiffres, <MM> comme espace réservé pour le mois à deux chiffres, <dd> comme espace réservé pour le jour à deux chiffres et <HH> comme espace réservé pour l'heure à deux chiffres. Par exemple :
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Cliquez sur Aperçu pour ouvrir la boîte de dialogue Aperçu des données. Une liste des fichiers inclus et exclus s'affiche.
-
Cliquez sur Valider pour vérifier les données.
-
Dans Définir le nom du jeu de données cible, indiquez un nom pour mapper la rubrique à la table Iceberg cible. Cliquez sur Suivant.
Sélection du type de contenu
Sélectionnez le type de contenu des événements sources.
-
Sélectionnez le type d'événements que vous ingérez dans Sélectionner le type d'événements de données.
-
Pour plus d'informations, consultez Connexion à des flux de données.
Le type de contenu sélectionné s'applique à toutes les rubriques. Vous devez créer une nouvelle tâche pour chaque type de contenu que vous souhaitez ingérer.
-
Développez Vérifier que les événements sont correctement chargés pour confirmer que les données peuvent être analysées. À ce stade, vous devez vous assurer que les données sont correctes, sinon vous devrez recréer le pipeline et charger de nouveau les données. Utilisez Sélectionner un jeu de données pour examiner des jeux de données spécifiques et vérifier les avertissements susceptibles d'affecter le chargement des données. Cliquez sur l'icône en forme d'œil à côté de n'importe quelle colonne de struct pour afficher les données.
-
Cliquez sur Suivant.
Définition des propriétés d'ingestion
Configurez les paramètres de votre pipeline :
-
Lire les données depuis
-
Démarrer à partir de l'événement le plus ancien : ingérez toutes les données historiques.
-
Démarrer à partir de maintenant : ingérez les nouvelles données qui arrivent à partir du démarrage du pipeline.
-
-
Désimbrication des colonnes
-
Préserver les colonnes imbriquées : aucune transformation n'est appliquée.
-
Désimbriquer en colonnes séparées : les données sont divisées en colonnes séparées.
-
-
Paramètres de chargement
-
Écrire à la suite uniquement : généralement la meilleure option pour les données d'événement, car elles ont généralement une courte durée de vie et ne sont pas mises à jour, par exemple, Commandes.
-
Fusionner : il s'agit de la meilleure option pour les données qui sont mises à jour au fil du temps, par exemple, Clients.
-
-
Partition des tables cibles
L'option Partition des tables cibles s'applique à toutes les tables du pipeline. Vous pouvez la remplacer ultérieurement au niveau de la table pour un partitionnement personnalisé.
-
Aucune partition : les tables seront créées sans aucune partition.
-
Partition par date d'ingestion des événements : les tables seront partitionnées en fonction de la date d'ingestion des événements.
-
-
Cliquez sur Suivant.
Résumé
L'écran Résumé fournit un affichage visuel de votre pipeline :
-
En option, pour les tâches de dépôt temporaire de flux et de transformation de flux, vous pouvez cliquer sur Modifier le nom et la description pour fournir de nouvelles valeurs.
-
Sélectionnez l'option correspondant à ce que vous souhaitez qu'il se passe Après la création du pipeline.
-
Lorsque vous avez configuré tous les paramètres, cliquez sur Créer pour créer le projet de pipeline.
-
Lorsque le projet s'affiche, vous pouvez préparer et exécuter chaque tâche pour commencer à ingérer les données.
-
Préparez et exécutez la tâche de dépôt temporaire de flux.
Pour plus d'informations, consultez Dépôt temporaire de données de flux dans Qlik Open Lakehouse.
-
Préparez et exécutez la tâche de transformation de flux.
Pour plus d'informations, consultez Stockage de jeux de données de flux.
-