Подключение данных
Ввод данных – это первый шаг, необходимый для создания конвейера данных в проекте Открытое озеро данных Qlik. Этот процесс позволяет передавать данные из источника и сохранять наборы данных в оптимизированных таблицах Iceberg. Изменения из источников данных постоянно применяются к таблицам хранилища в виде мини-пакетов.
Создание подключения данных производится в один этап, однако само подключение реализуется в два этапа.
-
Промежуточное хранение данных
Это подразумевает непрерывный перенос данных из локального источника данных в область промежуточного хранения с использованием задачи промежуточного хранения данных.
Промежуточное хранение данных, полученных из источников данных
Данные можно также выгрузить в озеро-хранилище Lakehouse, где они будут храниться в файловом хранилище S3.
Выгрузка данных в Открытое озеро данных Qlik для промежуточного хранения
-
Хранение наборов данных
Это подразумевает чтение начальной загрузки данных для промежуточного хранения или инкрементальных загрузок, а также применение данных в оптимизированном для чтения формате с использованием задачи хранения данных.
При наличии подключенных данных сохраненные наборы данных можно использовать разными способами.
-
Наборы данных можно использовать в аналитическом приложении.
-
Данные можно зеркалировать в Snowflake, добавив задачу «Зеркальные данные» непосредственно к задаче «Хранилище данных».
-
Можно производить трансформацию данных в Snowflake, создав межпроектный конвейер, который будет потреблять данные из проекта подключения.
Подключение данных
Подключение данных запускается в проекте. Наборы данных будут сохраняться в S3, указанном в проекте. Для получения дополнительной информации о проектах см. раздел Создание проекта конвейера данных.
-
В проекте щелкните Создать, затем Подключить данные.
Примечание к подсказкеТакже можно щелкнутьна существующем источнике в проекте и затем выбрать Подключить данные.
-
Введите Имя и Описание для подключения.
Щелкните Далее.
-
Выберите подключение источника.
Можно выбрать существующее подключение источника или создать новое подключение к источнику.
Для получения дополнительной информации см. раздел Настройка подключений к источникам данных.
Щелкните Далее.
-
Выберите данные для загрузки.
Для получения дополнительной информации см. раздел Выбор данных.
Щелкните Далее.
Откроется окно Параметры, в котором можно выбрать метод обновления и параметры истории.
-
Выберите метод, который будет использоваться для обновления данных, в разделе Метод обновления.
-
Захват изменений данных (CDC)
Если в данных имеются таблицы, которые не поддерживают технологию CDC, необходимо создать два конвейера данных: один с таблицами, поддерживающими CDC, и второй — с остальными таблицами и видами, используя режим Перезагрузка и сравнение.
-
Перезагрузка и сравнение
-
-
В разделе Журнал выберите, нужно ли реплицировать историю предшествующих данных в дополнение к текущим.
-
По окончании нажмите Далее.
-
Проверьте задачи данных, созданные для подключения данных, и переименуйте их при необходимости.
Примечание к подсказкеЭти имена используются при присвоении имен схемам баз данных в задаче хранения данных. Рекомендуется использовать уникальные имена, чтобы избежать конфликтов с задачами данных в других проектах, использующих эту же платформу. -
Выберите, нужно ли открыть любую из созданных задач данных или вернуться в проект.
По завершении нажмите кнопку Готово.
-
Задачи подключения данных созданы. Чтобы начать репликацию данных, необходимо:
-
подготовить и запустить задачу промежуточного хранения данных.
Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.
-
подготовить и запустить задачу хранения данных.
Для получения дополнительной информации см. раздел Хранение наборов данных.
Выбор данных
Можно выбрать определенные таблицы или виды, а также использовать правила выбора для включения или исключения групп таблиц.
Чтобы задать критерий выборки для схем и таблиц, используйте знак подстановки %.
-
%.% позволяет выбрать все таблицы во всех схемах.
-
Public.% определяет все таблицы в схеме Public.
Критерий выбора позволяет просмотреть результат в зависимости от выбранных условий.
Можно выполнить любое из действий:
-
Создать правило для включения или исключения группы таблиц, удовлетворяющих критерию выбора.
Нажмите Добавить правило из критериев выбора, чтобы добавить правило, и выберите Включить или Исключить.
Правила отображаются в разделе Правило выбора.
-
Выберите один или несколько наборов данных и нажмите Добавить выбранные наборы данных.
Добавленные наборы данных отображаются в Явно выбранные наборы данных.
Правила выбора применяются только к текущему набору таблиц и видов, однако они не будут применяться к таблицам и видам, добавляемым позже.