Настройки потокового промежуточного хранения в озере
К проектам Открытое озеро данных Qlik, использующим потоковый источник, применяются следующие настройки задачи потокового промежуточного хранения в озере.
Общая
Папка для использования
Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточную область.
-
Папка по умолчанию
Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.
-
Корневая папка
Данные сохраняются в корневой папке хранилища.
-
Папка
Укажите имя используемой папки.
Хранение папки
Выберите, как долго хранить данные:
-
Данные и метаданные не удаляются: Ни данные, ни метаданные не удаляются.
-
Удалять данные и метаданные по истечении срока хранения: Данные и метаданные удаляются по истечении срока хранения,
-
Удалять метаданные по истечению срока хранения. Данные удаляются внешней системой.Данные удаляются безвозвратно по истечении этого периода. Метаданные очищаются, но базовые данные, например, объект S3, не удаляются Qlik.
Прочитать данные из
Выберите, когда принимать данные из:
-
Начать с текущего момента
Принимать только те события, которые поступают при запуске конвейера.
-
Начать с самого раннего события (по умолчанию)
Принимать все исторические данные.
Тип содержимого
Выберите формат файла из списка, например, JSON или CSV. Это можно изменить после выполнения задачи, воссоздав ее. См. Типы содержимого для получения подробной информации о каждом формате файла.
Эволюция схемы
Новый раздел/потокВыберите способ обработки новых потоков/разделов.
-
Добавить в целевой объект: Если загрузить все таблицы в одну целевую таблицу, новые данные будут добавлены в эту таблицу. Если загрузить каждый раздел в отдельный набор данных, новый раздел будет добавлен в новый набор данных.
-
Игнорировать: Новые данные не добавляются в целевой объект.
Время выполнения
Число потребителей
-
Apache Kafka: Выберите количество используемых читателей. Значение должно быть от 1 до 1000.
-
Amazon Kinesis: Выберите количество сегментов потока.
-
Amazon S3: Этот параметр не применим к потоковым источникам S3.
Кластер хранилищ в озерах данных
Выберите потоковый кластер. Задача потокового промежуточного хранения и задачи потокового преобразования не обязательно должны находиться в одном кластере, но должны находиться в одной сетевой интеграции.
Типы содержимого
Следующие параметры применяются к каждому формату файла.
-
JSON
-
Это формат файла по умолчанию, если не определено иное.
-
-
CSV и TSV
-
Первая строка содержит заголовки: Выбрано по умолчанию, чтобы указать, что первая строка содержит запись заголовка.
-
Строка заголовка (Необязательно): Если первая строка не является заголовком, определите имена заголовков.
-
Разделитель: Выберите разделитель по умолчанию, если он отличается от стандартного (запятая для CSV, табуляция для TSV).
-
Символ экранирования кавычек: Выберите символ экранирования кавычек по умолчанию, если он отличается от двойных кавычек, заданных по умолчанию.
-
Нулевое значение (Необязательно): Введите замещающее нулевое значение.
-
Разрешить дублирование заголовков: Если два столбца имеют одинаковое имя, второй добавляется с другим именем.
-
-
Parquet, Avro и ORC
-
Дополнительные настройки не требуются.
-
-
Regex
-
Шаблон: Введите шаблон регулярного выражения.
-
Многострочный: Параметр выбран по умолчанию.
-
-
Разделение строк:
-
Регулярное выражение: Введите регулярное выражение для разделения.
-