Connexion à des flux de données

Les services de flux suivants sont supportés dans les projets Qlik Open Lakehouse. Les données d'événement sont ingérées en continu pour garantir une disponibilité quasiment en temps réel pour l'intégration de données en aval, l'analyse et l'IA, permettant des pipelines à faible latence qui reflètent l'activité opérationnelle la plus récente.

Les services de flux tels qu'Apache Kafka et Amazon Kinesis fournissent des pipelines haut débit durables pour capturer les événements opérationnels à mesure qu'ils se produisent. Contrairement aux sources basées sur des fichiers qui reposent sur l'ingestion par lots, les sources de flux fournissent des données en continu à mesure que les événements se produisent, permettant un traitement quasiment en temps réel sans attendre que les fichiers soient générés ou planifiés. Les producteurs publient des messages structurés ou semi-structurés qui conservent leur schéma et supportent le partitionnement. Toutes les mises à jour et suppressions du même enregistrement doivent utiliser la même clé de partition. Kafka et Kinesis garantissent l'ordre uniquement au sein d'une seule partition ou d'un seul shard, et non sur l'ensemble de la rubrique ou du flux, de sorte que l'utilisation d'une clé de partition cohérente garantit le traitement dans le bon ordre des modifications d'un enregistrement donné. Qlik supporte également Amazon S3 comme source de flux pour l'ingestion continue de données d'événements.

Différence entre l'ingestion de flux et l'ingestion par lots

La différence entre les sources de données de flux et par lots est la suivante :

Avec les deux sources, les événements sont ingérés efficacement à chaque minute, supportant le traitement à faible latence et l'analyse quasiment en temps réel.
Avec les sources hors flux, il commence par se produire un chargement complet des données existantes, puis les modifications sont ingérées. Vous pouvez également actualiser les données de chargement complet à partir de la source.
Avec les sources de flux, il n'existe pas de distinction claire entre le chargement initial et les événements ultérieurs. Qlik peut gérer la conservation et supporte également les partitions.

Les tâches de flux sont facturées en fonction de la consommation de calcul (vCores x temps d'exécution) plutôt que du volume de données.

Dans un projet Qlik Open Lakehouse, les sources de flux peuvent être utilisées uniquement avec la Tâche de dépôt temporaire de flux et la Tâche de transformation de flux :

Les données de flux sont ingérées à l'aide d'une Tâche de dépôt temporaire de flux, et, au lieu de traiter des fichiers discrets, la Tâche de dépôt temporaire de flux lit les événements à mesure qu'ils arrivent, dépose temporairement les données dans Amazon S3 et persiste les événements sous forme de fichiers Avro. Cette approche préserve l'évolution du schéma, supporte les types de données complexes tels que les structs et offre un stockage efficace avec des performances de requête optimisées tout en maintenant un modèle d'ingestion continu.
Lorsque vous intégrez des données à partir d'une source de flux, une Tâche de transformation de flux est automatiquement ajoutée pour chaque jeu de données qui sera stocké au format Iceberg. En option, la Tâche de transformation de flux peut être utilisée pour standardiser les structures, enrichir les charges utiles d'événements ou aligner les données sur les modèles de consommation en aval.
Une Tâche Refléter les données permet de mettre en miroir des jeux de données provenant de sources de flux dans des entrepôts de données cloud, pour que les systèmes en aval puissent consommer des événements de flux sans dupliquer de données. Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.

Limitations

Les limitations suivantes s'appliquent à toutes les sources de données :

Si vos fichiers sont de types différents, ce qui peut se produire lorsqu'ils proviennent de plusieurs sources ou versions, la tâche de transformation créée à l'aide d'un seul fichier d'échantillon (par exemple, lors de l'intégration) ne tient pas automatiquement compte de ces différences.
Si vous modifiez les types de données dans la tâche de dépôt temporaire, par exemple parce que vous devez hacher les données, assurez-vous que les types de données de transformation correspondent aux nouveaux types de données.

Sources supportées

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici