Настройки потокового промежуточного хранения в озере

К проектам Открытое озеро данных Qlik, использующим потоковый источник, применяются следующие настройки задачи потокового промежуточного хранения в озере.

Общее

Папка для использования
Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточную область.

Папка по умолчанию

Это создает папку с именем по умолчанию: <project name>/<data task name>.
Корневая папка

Данные сохраняются в корневой папке хранилища.
Папка

Укажите имя используемой папки.

Срок хранения папки
Выберите, как долго хранить данные:

Данные и метаданные не удаляются: Ни данные, ни метаданные не удаляются.
Удалять данные и метаданные по истечении срока хранения: Данные и метаданные удаляются по истечении срока хранения,
Удалять метаданные по истечении срока хранения. Данные удаляются внешней системой.Данные удаляются безвозвратно по истечении этого периода. Метаданные очищаются, но базовые данные, например, объект S3, не удаляются Qlik.

Читать данные из
Выберите, когда принимать данные из:

Начать с текущего момента

Принимать только те события, которые поступают при запуске конвейера.
Начать с самого раннего события (по умолчанию)

Принимать все исторические данные.

Тип содержимого
Выберите формат файла из списка, например, JSON или CSV. Это можно изменить после выполнения задачи, воссоздав ее. См. Типы содержимого для получения подробной информации о каждом формате файла.

Эволюция схемы

Новый раздел/потокВыберите способ обработки новых потоков/разделов.

Добавить в целевой объект: Если загрузить все таблицы в одну целевую таблицу, новые данные будут добавлены в эту таблицу. Если загрузить каждый раздел в отдельный набор данных, новый раздел будет добавлен в новый набор данных.
Игнорировать: Новые данные не добавляются в целевой объект.

Время выполнения

Число потребителей

Apache Kafka: Выберите количество используемых читателей. Значение должно быть от 1 до 1000.
Amazon Kinesis: Выберите количество сегментов потока.
Amazon S3: Этот параметр не применим к потоковым источникам S3.

Кластер Lakehouse
Выберите потоковый кластер. Задача потокового промежуточного хранения и задачи потокового преобразования не обязательно должны находиться в одном кластере, но должны находиться в одной сетевой интеграции.

Типы содержимого

Следующие параметры применяются к каждому формату файла.

JSON
- Это формат файла по умолчанию, если не определено иное.
CSV и TSV
- Первая строка содержит заголовки: Выбрано по умолчанию, чтобы указать, что первая строка содержит запись заголовка.
- Строка заголовка (Необязательно): Если первая строка не является заголовком, определите имена заголовков.
- Разделитель: Выберите разделитель по умолчанию, если он отличается от стандартного (запятая для CSV, табуляция для TSV).
- Символ экранирования кавычек: Выберите символ экранирования кавычек по умолчанию, если он отличается от двойных кавычек, заданных по умолчанию.
- Нулевое значение (Необязательно): Введите замещающее нулевое значение.
- Разрешить дублирование заголовков: Если два столбца имеют одинаковое имя, второй добавляется с другим именем.
Parquet, Avro и ORC
- Дополнительные настройки не требуются.
Regex
- Шаблон: Введите шаблон регулярного выражения.
- Многострочный: Параметр выбран по умолчанию.
Разделение строк:
- Регулярное выражение: Введите регулярное выражение для разделения.

Поддерживаются следующие форматы сжатых файлов, которые будут автоматически распакованы: GZIP, SNAPPY, LZ4, ZSTD, TAR, и LZO.

Автоматическое определение типов содержимого

Автоопределение: Нажмите, чтобы автоматически определить, является ли формат исходного файла JSON, Parquet или Avro. Другие форматы файлов необходимо выбирать вручную.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь