Étape 2 : créer un cluster de lakehouse
Un cluster de lakehouse définit l'environnement de calcul permettant d'exécuter des tâches de stockage Qlik Open Lakehouse. Chaque cluster spécifie des paramètres tels que le nombre d'instances, le type de machine et la stratégie de mise à échelle.
Lorsque vous créez une intégration réseau pour un projet de pipeline Qlik Open Lakehouse, un cluster avec une seule instance Spot AWS est automatiquement créé. Toutefois, vous pouvez créer des clusters supplémentaires dans les centres d'activités Administration et Intégration de données.
Les clusters de lakehouse relient les pipelines à un groupe d'instances AWS, ce qui vous permet d'optimiser les charges de travail en affectant les tâches essentielles à des clusters hautes performances et les charges de travail non essentielles à des postes rentables.
Bien qu'un cluster soit associé à un seul VPC, plusieurs clusters peuvent fonctionner au sein d'un même VPC. En outre, un seul cluster peut exécuter plusieurs tâches. Il est utile de définir les besoins en calcul de vos charges de travail avant de créer un cluster de lakehouse. Les paramètres du cluster, y compris la stratégie de mise à échelle, peuvent être modifiés selon les besoins, bien que certaines modifications puissent nécessiter la propagation du cluster. Pour plus d'informations sur la modification des paramètres de cluster, consultez Gestion des clusters de lakehouse.
Lorsque vous créez un cluster de lakehouse, vous spécifiez le nombre d'instances Spot et à la demande provisionnées par Qlik. Pour plus d'informations sur la façon dont Qlik utilise les instances Spot et à la demande dans votre cluster, consultez Cluster de lakehouse (groupe à mise à échelle automatique EC2)
Capacités du cluster
Lorsque vous créez un cluster, vous devez sélectionner le type de charge de travail que le cluster exécute : flux, CDC ou mixte. En général, il est recommandé d'utiliser des clusters distincts pour les sources de flux et CDC (bases de données et applications SaaS). Cela garantit des frais de facturation précis et minimaux. Cependant, il existe des cas d'utilisation où une charge de travail mixte est appropriée et peut partager un cluster :
-
Pour le test ou l'évaluation de projets de petite envergure dont les volumes de facturation sont insignifiants.
-
Si l'utilisation sans flux est minimale et que vous ne souhaitez pas configurer et gérer un cluster distinct.
Conditions préalables requises
Pour créer un cluster de lakehouse, vous avez besoin des éléments suivants :
-
Une intégration réseau au sein du client actuel.
-
Une autorisation d'accès à l'intégration réseau.
Création d'un cluster de lakehouse
Pour ajouter un cluster au client actuel, procédez comme suit :
-
Dans le centre d'activités Administration, cliquez sur Clusters de lakehouse. Sélectionnez l'onglet Clusters de lakehouse, cliquez sur Créer , puis sur Cluster de lakehouse et configurez-le :
-
Nom : saisissez le nom du cluster.
-
Intégration réseau : sélectionnez l'intégration réseau dans laquelle le cluster sera déployé.
-
Espace d'intégration : sélectionnez l'espace auquel le cluster appartiendra, car il n'est pas hérité de l'intégration réseau.
-
Sélectionnez les capacités du cluster en fonction de la charge de travail :
-
Charges de travail de flux : sélectionnez cette option lors de l'ingestion d'une source de données de flux.
-
Charges de travail CDC : sélectionnez cette option lors de l'ingestion de sources de bases de données et d'applications SaaS.
-
Charges de travail mixtes : sélectionnez des charges de travail mixtes lors des tests, ou lorsque l'utilisation de sources de flux est minimale et que les charges de travail sont principalement composées de sources CDC.
-
-
Configurez le type de famille :
-
Type : sélectionnez le type d'instance.
-
Taille : sélectionnez la taille d'instance.
-
- Configurez les instances :
-
Instances à la demande AWS : saisissez le nombre d'instances à la demande AWS pour ce cluster.
-
Instances Spot AWS : saisissez le nombre Minimal et le nombre Maximal d'instances Spot à utiliser.
- Sélectionnez une stratégie appropriée à votre charge de travail parmi les options suivantes :
-
Coût bas : optimise les coûts, mais peut entraîner des périodes occasionnelles de forte latence.
-
Latence basse : s'efforce de maintenir une latence basse, en autorisant de brefs pics nécessaires.
-
Latence basse cohérente : effectue une mise à échelle proactive pour garantir que la latence reste basse.
-
Mise à échelle manuelle : conserve un nombre statique d'instances sans mise à l'échelle automatique.
-
Sélectionnez la manière dont votre cluster reçoit les mises à jour logicielles :
-
Déploiement anticipé : idéal pour les clusters de développement et de mise à échelle afin de valider les nouvelles versions par rapport aux configurations personnalisées et au code, avant la mise en production.
-
Déploiement ultérieur : les mises à jour sont appliquées après un déploiement anticipé abouti et sont recommandées pour les environnements de production.
-
Ajoutez une Clé et une Valeur pour les balises que vous souhaitez inclure et qui vous aideront à identifier, organiser et gérer les ressources.