Шаг 2. Создание кластера Lakehouse
Кластер Lakehouse определяет вычислительную среду для выполнения задач хранения Открытое озеро данных Qlik. Каждый кластер задает настройки, включающие количество экземпляров, тип машины и стратегию масштабирования.
При создании сетевой интеграции для проекта конвейера Открытое озеро данных Qlik автоматически создается кластер с одним спотовым экземпляром AWS. Однако вы можете создавать дополнительные кластеры в центрах активности «Администрирование» и Интеграция данных.
Кластеры Lakehouse связывают конвейеры с группой экземпляров AWS, позволяя оптимизировать рабочие нагрузки путем назначения критически важных заданий высокопроизводительным кластерам, а некритичных рабочих нагрузок — экономичным машинам.
Хотя кластер связан с одним VPC, в одном VPC могут работать несколько кластеров. Кроме того, один кластер может выполнять несколько заданий. Перед созданием кластера Lakehouse полезно определить требования к вычислительным ресурсам для ваших рабочих нагрузок. Настройки кластера, включая стратегию масштабирования, можно изменять по мере необходимости, хотя некоторые изменения могут потребовать перезапуска кластера. Для получения дополнительной информации об изменении настроек кластера см. Управление кластерами Lakehouse
При создании кластера Lakehouse вы указываете количество спотовых экземпляров и экземпляров по требованию, которые предоставляет Qlik. Для получения дополнительной информации о том, как Qlik использует спотовые экземпляры и экземпляры по требованию в вашем кластере, см. Кластер Lakehouse (группа автоматического масштабирования EC2)
Использование пользовательских образов не является обязательным. При использовании пользовательских образов требуется образ x86, но для максимальной доступности спотовых экземпляров рекомендуется использовать образы как arm, так и x86. Для получения дополнительной информации см.Требования к AMI .
Возможности кластера
При создании кластера необходимо выбрать тип рабочей нагрузки, которую он выполняет: потоковая передача, CDC или смешанная. В целом, рекомендуется использовать отдельные кластеры для источников потоковой передачи и CDC (базы данных и SaaS). Это обеспечивает точное и минимальное начисление платы. Однако существуют сценарии использования, когда смешанная рабочая нагрузка является целесообразной и может совместно использовать кластер:
-
Для тестирования или оценки небольших проектов, которые имеют незначительные объемы тарификации.
-
Если использование без потоковой передачи минимально, и вы не хотите настраивать и обслуживать отдельный кластер.
Предварительные условия
Для создания кластера Lakehouse вам потребуется:
-
Сетевая интеграция в рамках текущего клиента.
-
Разрешение на доступ к сетевой интеграции.
Создание кластера Lakehouse
Чтобы добавить кластер для текущего клиента, выполните следующие действия:
-
В центре активности Администрирование нажмите Кластеры Lakehouse. Выберите вкладку Кластеры Lakehouse, нажмите Создать новый, затем Кластер Lakehouse и настройте его:
-
Имя: Введите имя кластера.
-
Сетевая интеграция: Выберите сетевую интеграцию, в которой будет развернут кластер.
-
Пространство интеграции: Выберите пространство, к которому будет принадлежать кластер, так как оно не наследуется от сетевой интеграции.
-
Выберите возможности кластера для рабочей нагрузки:
-
Потоковые рабочие нагрузки: Выберите этот параметр при приеме данных из потокового источника данных.
-
Рабочие нагрузки CDC: Выберите этот параметр при приеме данных из баз данных и источников приложений SaaS.
-
Смешанные рабочие нагрузки: Выберите смешанные рабочие нагрузки при тестировании или если использование потоковых источников минимально, а рабочие нагрузки состоят в основном из источников CDC.
-
-
Настройте тип семейства:
-
Тип: Выберите тип экземпляра.
-
Размер: Выберите размер экземпляра.
-
- Настройте экземпляры:
-
Экземпляры AWS по требованию: Введите количество экземпляров AWS по требованию для этого кластера.
-
Спотовые экземпляры AWS: Введите Минимальное и Максимальное количество спотовых экземпляров для использования.
- Выберите подходящую стратегию для вашей рабочей нагрузки из следующих вариантов:
-
Низкая стоимость – Оптимизирует для снижения затрат, хотя может приводить к периодическим периодам высокой задержки.
-
Низкая задержка - Стремится поддерживать низкую задержку, допуская при этом кратковременные необходимые всплески.
-
Стабильно низкая задержка - Заблаговременно масштабируется для обеспечения низкой задержки.
-
Ручное масштабирование - Сохраняет статическое количество экземпляров без автоматического масштабирования.
-
Выберите, как ваш кластер будет получать обновления программного обеспечения:
-
Раннее развертывание: Идеально подходит для кластеров разработки и промежуточных сред для проверки новых выпусков на пользовательских настройках и коде перед внедрением в рабочую среду.
-
Позднее развертывание: Обновления применяются после успешного раннего развертывания и рекомендуются для рабочих сред.
-
Добавьте Ключ и Значение для любых тегов, которые вы хотите включить, чтобы помочь вам идентифицировать, организовывать и управлять ресурсами.