Шаг 2. Создание кластера Lakehouse
Кластер Lakehouse определяет вычислительную среду, используемую для выполнения задач хранения данных Открытое озеро данных Qlik. Каждый кластер имеет параметры, определяющие число экземпляров, тип машины и стратегию масштабирования.
При создании сетевой интеграции для проекта конвейера Открытое озеро данных Qlik кластер с одним экземпляром AWS Spot создается автоматически. Однако можно создать дополнительные кластеры в центрах активности «Администрирование» и Интеграция данных.
Кластеры Lakehouse связывают конвейеры с группой экземпляров AWS, позволяя оптимизировать рабочие нагрузки: распределяют критически важные задачи на высокопроизводительные кластеры, а некритичные рабочие нагрузки — на экономичные машины.
Один кластер связан с одним VPC, но в одном частном виртуальном облаке могут работать несколько кластеров. Кроме того, один кластер может выполнять несколько заданий. Перед созданием Lakehouse рекомендуется определиться с вычислительными потребностями. Параметры кластера, включая стратегию масштабирования, можно менять по мере необходимости, однако для применения некоторых изменений может потребоваться развертывание кластера. Для получения информации об изменении настроек кластера см. раздел Управление кластерами Lakehouse
При создании кластера Lakehouse необходимо указать число экземпляров (машин) Spot и On-Demand, выделяемых для Qlik. Для получения дополнительной информации о том, как Qlik использует экземпляры Spot и On-Demand в кластере, см. Кластер Lakehouse (EC2 Auto-Scaling Group)
Возможности кластера
При создании кластера необходимо выбрать тип рабочей нагрузки, которую он будет выполнять: потоковая, CDC или смешанная. В целом, рекомендуется использовать отдельные кластеры для потоковых источников и источников CDC (базы данных и SaaS). Это обеспечивает точное и минимальное начисление платы. Однако существуют сценарии, когда смешанная рабочая нагрузка уместна и может использовать один кластер:
-
Для тестирования или оценки небольших проектов с незначительными объемами выставления счетов.
-
Если использование без потоковой передачи минимально, и вы не хотите настраивать и поддерживать отдельный кластер.
Необходимые условия
Для создания кластера Lakehouse требуется следующее:
-
Сетевая интеграция в текущем клиенте.
-
Разрешение на доступ к сетевой интеграции.
Создание кластера Lakehouse
Чтобы добавить кластер к текущему клиенту:
-
В центре активности Администрирование нажмите Кластеры Lakehouse. Выберите вкладку Кластеры Lakehouse, нажмите Создать, затем Кластер Lakehouse. Настройте кластер следующим образом:
-
Имя: введите имя кластера.
-
Сетевая интеграция: выберите сетевую интеграцию, в которой будет развернут кластер.
-
Интеграционное пространство: выберите пространство, к которому будет принадлежать кластер, так как оно не наследуется при интеграции сети.
-
Выберите возможности кластера для рабочей нагрузки:
-
Потоковые рабочие нагрузки: Выберите этот параметр при приеме данных из потокового источника данных.
-
Рабочие нагрузки CDC: Выберите этот параметр при приеме данных из баз данных и источников приложений SaaS.
-
Смешанные рабочие нагрузки: Выберите смешанные рабочие нагрузки при тестировании, или если использование потоковых источников минимально, а рабочие нагрузки состоят в основном из источников CDC.
-
-
Настройте тип семейства:
-
Тип: Выберите тип экземпляра.
-
Размер: Выберите размер экземпляра.
-
- Настройте экземпляры:
-
Экземпляры AWS по запросу: введите количество машин AWS On-Demand, доступных для этого кластера.
-
Спотовые экземпляры AWS: введите минимальное и максимальное число машин Spot.
- Выберите подходящую стратегию для рабочей нагрузки:
-
Низкая стоимость – оптимизирует с целью снижения расходов, однако в этом случае могут возникать более длительные задержки.
-
Низкая задержка – по возможности обеспечивает низкую задержку, однако допускаются кратковременные всплески.
-
Постоянно низкие задержки – масштабирует заранее, чтобы обеспечить низкую задержку.
-
Ручное масштабирование – использует фиксированное число экземпляров без автоматического масштабирования.
-
Выберите механизм обновления программного обеспечения на кластере:
-
Раннее развертывание: оптимально для кластеров разработки и тестирования, так как в этом случае можно проверить новые версии на пользовательских конфигурациях и коде до выхода в производство.
-
Позднее развертывание: обновления применяются, если раннее развертывание прошло успешно. Рекомендуется для производственных сред.
-
Добавьте Ключ и Значение для тегов, которые будут использоваться для идентификации, организации и управления ресурсами.