Потоковые данные
Процесс адаптации передает данные из источника и сохраняет их в таблицах Iceberg. Изменения из потоковых источников данных постоянно применяются к таблицам хранилища почти в реальном времени.
Подключенные данные
Данные подключаются в рамках проекта конвейера, а наборы данных хранятся в местоположении S3, определенном в настройках проекта.
-
В проекте щелкните Создать, затем Подключить данные.
-
Добавьте Имя задачи и необязательное Описание для подключения.
Нажмите Далее.
-
Выберите подключение источника.
Можно выбрать существующее подключение к источнику потоковой передачи или создать новое подключение к источнику.
Для получения дополнительной информации см. Подключение к потокам данных
Нажмите Далее и следуйте приведенным ниже инструкциям для вашего источника данных.
Выбор данных
Apache Kafka и Amazon Kinesis
В списке отображаются доступные разделы Kafka или потоки Kinesis с хоста, определенного в подключении к источнику.
При выборе разделов/потоков можно выбрать определенные наборы данных или использовать правила выбора для включения или исключения групп наборов данных:
-
Используйте % в качестве знака подстановки для определения критериев выбора для наборов данных.
-
%.% определяет все наборы данных во всех потоках.
Если разделы выбраны с помощью правил выбора, вы можете выбрать, загружать ли все наборы данных в одну и ту же целевую таблицу или создавать отдельную целевую таблицу для каждого исходного раздела:
-
По умолчанию имя целевой таблицы Iceberg формируется из имени раздела, отформатированное в соответствии с соглашениями об именовании, например, в нижнем регистре, с удаленными пробелами, с заменой дефисов на символы подчеркивания. В Определение имени целевого набора данных можно изменить имя целевой таблицы
-
Когда правила выбора используются для загрузки нескольких разделов в одну таблицу, необходимо указать целевое имя.
-
Когда используются правила выбора и данные загружаются в отдельные таблицы (один набор данных на раздел), целевыми именами по умолчанию являются имена разделов. На этом этапе вы не можете редактировать имена в мастере, но это можно сделать позже в задаче промежуточного хранения.
-
Если правило настроено для выбора разделов для приема, любые новые разделы, соответствующие критериям правила, также будут помещены в промежуточное хранение, если установлен флажок Новый раздел > Добавить в цель в параметрах эволюции схемы в настройках задачи промежуточного хранения.
Выберите один или несколько наборов данных и нажмите Добавить выбранные потоки. Добавленные наборы данных отображаются в Явно выбранные потоки. Нажмите Далее.
Amazon S3
В браузере каталогов отображается список всех каталогов, расположенных в S3-блоке исходного подключения.
-
Выберите каталоги, которые нужно включить при промежуточном хранении данных:
-
Для каждого каталога в Добавить путь введите путь и шаблон имени файла:
-
Используйте * как знак подстановки для сопоставления любого символа.
-
Чтобы ввести шаблон даты, используйте <yyyy> как заполнитель для четырехзначного года, <MM> как заполнитель для двухзначного месяца, <dd> как заполнитель для двухзначного дня и <HH> как заполнитель для двухзначного часа. Например:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Нажмите Предварительный просмотр, чтобы открыть диалоговое окно Предварительный просмотр данных. Отображается список включенных и исключенных файлов.
-
Нажмите Проверить, чтобы проверить данные.
-
В разделе Определить имя целевого набора данных укажите имя, чтобы сопоставить раздел с целевой таблицей Iceberg. Нажмите Далее.
Выбор типа содержимого
Выберите тип содержимого событий источника.
-
Выберите тип событий, которые вы загружаете в Выберите тип событий данных.
-
Для получения дополнительной информации см. раздел Подключение к потокам данных.
Выбранный тип содержимого применяется ко всем темам. Необходимо создать новую задачу для каждого типа содержимого, который вы хотите загрузить.
-
Разверните Проверьте правильность загрузки событий, чтобы убедиться, что данные могут быть проанализированы. Вы должны убедиться, что данные на этом этапе верны, иначе вам придется воссоздать конвейер и загрузить данные снова. Используйте Выбрать набор данных, чтобы изучить конкретные наборы данных и проверить любые предупреждения, которые могут повлиять на загрузку данных. Нажмите значок глаза рядом с любыми столбцами структуры, чтобы просмотреть данные.
-
Нажмите Далее.
Настройка свойств приема данных
Настройте параметры для вашего конвейера:
-
Прочитать данные из
-
Начать с самого раннего события: загрузить все исторические данные.
-
Начать сейчас: загружать новые данные, поступающие с момента запуска конвейера.
-
-
Развертка по столбцам
-
Сохранить вложенные столбцы: преобразования не применяются.
-
Развернуть в отдельные столбцы: данные разделяются на отдельные столбцы.
-
-
Загрузить настройки
-
Только добавление: как правило, лучший вариант для данных о событиях, поскольку они обычно имеют короткий срок жизни и не обновляются, например, Заказы.
-
Слияние: это лучше всего подходит для данных, которые обновляются со временем, например, Клиенты.
-
-
Разделение целевой таблицы
Параметр разделения целевой таблицы применяется ко всем таблицам в конвейере. Вы можете переопределить это позже на уровне таблицы для индивидуального разделения.
-
Без разделения: таблицы будут созданы без разделов.
-
Разделение по дате приема событий: таблицы разбиваются на разделы по дате появления событий в системе.
-
-
Нажмите Далее.
Сводка
Экран сводки предоставляет визуальное отображение вашего конвейера:
-
При желании для задачи потокового промежуточного хранения и Streaming Transform можно нажать Изменить имя и описание, чтобы ввести новые значения.
-
Выберите вариант того, что должно произойти После создания конвейера.
-
После настройки всех параметров нажмите Создать, чтобы создать проект конвейера.
-
Когда проект отобразится, вы сможете подготовить и запустить каждую задачу, чтобы начать прием данных.
-
Подготовьте и запустите задачу потокового промежуточного хранения.
Для получения дополнительной информации см. раздел Выгрузка потоковых данных в Открытое озеро данных Qlik.
-
Подготовьте и запустите задачу потокового преобразования.
Для получения дополнительной информации см. раздел Хранение потоковых наборов данных.
-