Flux de données Apache Kafka
Connectez-vous à votre cluster Apache Kafka pour l'utiliser comme source de données de flux dans vos projets Qlik Open Lakehouse. Les connexions Kafka ne peuvent être utilisées qu'avec la tâche de dépôt temporaire de flux et la tâche de transformation de flux.
Qlik Open Lakehouse permet aux organisations de créer des pipelines en temps réel, prêts pour l'analyse, dans une architecture ouverte et évolutive. En intégrant Apache Kafka comme source de flux, Qlik supporte l'ingestion continue de données d'événements très volumineux dans les tables Apache Iceberg. Cette combinaison offre une disponibilité des données à faible latence et une évolution de schéma robuste, permettant aux équipes d'opérationnaliser les informations analytiques en temps réel et d'accélérer les transformations en aval.
Les tâches de dépôt temporaire de flux et les tâches de transformation de flux permettent d'utiliser des rubriques Kafka comme des composants centraux de vos projets Qlik Open Lakehouse. À mesure que les données affluent dans Iceberg, elles sont rapidement accessibles pour les charges de travail analytiques, d'IA et d'apprentissage automatique, supportant la prise de décision sensible au temps et les pratiques d'ingénierie de données évolutives. Le résultat est une couche de données unifiée et optimisée pour les requêtes qui renforce la fiabilité et les performances de vos architectures de flux. Pour analyser les données de Kafka à l'aide de votre moteur de requête d'entrepôt de données cloud, déposez temporairement et stockez les données dans un Qlik Open Lakehouse et mettez les données en miroir dans votre entrepôt à l'aide d'une Tâche Refléter les données.
Conditions préalables requises
Les conditions suivantes s'appliquent lors de la création et de l'utilisation d'une source de flux Kafka :
-
Une intégration réseau qui dispose d'une connectivité réseau aux serveurs de broker.
-
Assurez-vous que le cluster Kafka auquel vous souhaitez vous connecter est accessible depuis le VPC sur lequel se trouve le cluster de lakehouse qui exécutera la tâche de dépôt temporaire.
-
Une connexion de source de flux Kafka nécessite une plateforme cible Qlik Open Lakehouse.
Définition des propriétés de connexion Kafka
Pour configurer votre connexion Kafka, procédez comme suit :
-
Dans Connexions, cliquez sur Créer une connexion.
-
Sélectionnez l'Espace dans lequel vous souhaitez créer la connexion ou sélectionnez Créer un espace de données.
-
Sélectionnez Kafka dans la liste de noms de Connecteur ou utilisez la zone Recherche. Assurez-vous que le Type est Source et que la Catégorie est Streaming.
-
Configurez les propriétés suivantes :
Source de données
Définissez les propriétés de connexion de la source de données comme suit :
-
Sélectionnez votre Intégration réseau dans la liste.
-
Dans Serveurs de broker, saisissez un seul hôte en suivant le format hostname:port, par exemple, host1:9092.
Pour saisir une liste d'hôtes, utilisez le format : hostname:port, hostname:port, par exemple, host1:9092,host2:9092.
Détails d'authentification
-
Sélectionnez votre Méthode d'authentification dans la liste :
-
SASL/SCRAM-SHA-512 : cette option permet l'authentification via un nom d'utilisateur et un mot de passe en utilisant le mécanisme SCRAM-SHA-512. Il s'agit de la variante SCRAM la plus sécurisée, et cela nécessite la configuration des informations d'identification SCRAM-SHA-512 correspondantes dans le cluster Kafka.
-
:
SASL/SCRAM-SHA-256
Saisissez le Nom d'utilisateur et le Mot de passe de votre connexion.
TLS
Vous pouvez éventuellement ajouter une autorité de certification (CA).
Pour ajouter une CA, sélectionnez Use custom trust CA (Utiliser une CA de confiance personnalisée).
Dans CA path (Chemin d'accès à la CA), saisissez le chemin d'accès du fichier de CA à charger dans Qlik Cloud. Le fichier de CA est disponible pour les clusters exécutant les tâches.
Propriétés Kafka supplémentaires
Les propriétés Kafka supplémentaires sont facultatives.
Ajoutez une Clé et une Valeur pour les balises que vous souhaitez inclure et qui vous aideront à identifier, organiser et gérer les ressources.
Connexion au registre de schémas
Le serveur de registre de schémas est facultatif.
Pour vous connecter à un registre de schémas, cliquez sur Set up a schema registry server (Configurer un serveur de registre de schémas) et configurez les paramètres :
Schema Registry URI (URI du registre de schémas) : saisissez l'URI au format http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Username (Nom d'utilisateur) : saisissez le nom d'utilisateur de la connexion au serveur.
Password (Mot de passe) : saisissez le mot de passe de la connexion au serveur.
TLS de la connexion au registre de schémas
Si vous choisissez de configurer un serveur de registre de schémas, vous avez la possibilité d'ajouter une autorité de certification (CA).
Pour ajouter une CA, sélectionnez Use custom trust CA (Utiliser une CA de confiance personnalisée).
Dans CA path (Chemin d'accès à la CA), saisissez le chemin d'accès du fichier de CA à charger dans Qlik Cloud. Le fichier de CA est disponible pour les clusters exécutant les tâches.
Création de la connexion
Une fois que vous avez configuré votre méthode de sécurité, suivez les étapes suivantes pour créer votre connexion :
Dans Nom, saisissez le nom d'affichage de la connexion, par exemple My Kafka Streaming Source connection.
Cliquez sur Tester la connexion pour valider les informations de connexion.
Cliquez sur Créer.
Mappage des rubriques aux jeux de données
Les cas d'utilisation suivants sont supportés lors de l'ingestion à partir d'une source Kafka :
| Rubrique | Jeu de données cible | Cas d’utilisation | Mappage |
|---|---|---|---|
| One | One | Chaque rubrique est chargée dans un jeu de données cible. | Supporté dans le mappage des jeux de données de la tâche de dépôt temporaire de flux. |
| One | Many | Dupliquez une rubrique dans plusieurs jeux de données. | Supporté en utilisant Ajouter à la cible à plusieurs reprises. |
| One | Many | Divisez un événement en plusieurs cibles. Par exemple, un événement contient orders et order lines qui sont divisés en plusieurs jeux de données. | Supporté dans la tâche de transformation de flux. Dupliquez un jeu de données et sélectionnez différents champs dans chaque jeu de données ; ou utilisez le Processeur Fork (Réplication) et le Processeur Select columns (Sélection de colonnes) dans le flux de transformation. |
| One | Many | Divisez une rubrique en plusieurs jeux de données en fonction de valeurs de colonne spécifiques. | Supporté dans la tâche de transformation de flux. Configurez un Processeur Filter (Filtrage) pour chaque valeur de colonne utilisée pour diviser la rubrique en différents jeux de données. Pour gérer les enregistrements sans correspondance, configurez un Processeur Filter (Filtrage) supplémentaire qui génère les données non correspondantes dans un jeu de données distinct. |
| Many | One | Ingérez toutes les rubriques qui répondent à un critère spécifique dans le même jeu de données cible, ou des rubriques spécifiques dans le même jeu de données. | Supporté dans le mappage des jeux de données de la tâche de dépôt temporaire de flux. Si plusieurs rubriques sont chargées dans un seul jeu de données et qu'une des tâches de chargement de rubrique échoue, le jeu de données génère une erreur et le chargement des autres rubriques est interrompu. |