Настройки для целей типа «облачное хранилище»
В соответствии с потребностями можно изменить параметры по умолчанию для промежуточного хранения данных в озере.
Общее
Метод обновления
Промежуточное хранение данных можно осуществлять двумя разными способами. После завершения подготовки задачи промежуточного хранения в озере данных режим изменить невозможно.
-
Захват изменений данных (CDC): задачи промежуточного хранения в озере данных начинаются с полной загрузки (во время которой все выбранные таблицы помещаются на промежуточное хранение). После этого актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват данных изменений).
Примечание к информацииCDC (Захват изменений данных) для операций DDL не поддерживается.При работе с Data Movement Gateway изменения захватываются из источника практически в режиме реального времени. При работе без Data Movement Gatewayизменения захватываются в соответствии с параметрами планировщика. Для получения дополнительной информации см. раздел Планирование задач при работе без Data Movement Gateway.
- Перезагрузить: выполняется полная загрузка данных из выбранных исходных таблиц на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но при необходимости ее можно выполнять вручную или по расписанию на регулярной основе.
Папка для использования
Выберите одно из перечисленного ниже в зависимости от того, в какую папку блока требуется записывать файлы:
- Папка по умолчанию: Формат папки по умолчанию: <имя_проекта>/<имя_задачи>
- Корневая папка: файлы будут записываться прямо в блок.
-
Папка: укажите имя папки. Если папка не существует, она будет создана при выполнении задачи промежуточного хранения в озере данных.
Примечание к информации Имя папки не должно включать специальных символов (например, @, #, ! и т. д.).
Создание разделов изменений данных
В стандартной задаче промежуточного хранения изменения передаются в цель без соблюдения какого-то определенного порядка. Функция «Создание разделов изменений данных» позволяет согласованно обрабатывать данные изменений из нескольких таблиц. Можно определить продолжительность разделов, а также базовое время разбиения, чтобы тем самым обеспечить общую согласованность разделенных данных (то есть нет частичных транзакций, нет заголовков заказов без строк заказа и т. д.)
Информация о разделах вносится в управляющую таблицу attrep_cdc_partitions в целевой базе данных. Эти сведения можно использовать для идентификации разделенных данных, требующих дальнейшей обработки.
Предлагаются следующие варианты создания разделов:
-
Раздел кажд. — укажите продолжительность каждого раздела (в часах и минутах).
Примечание к информацииРекомендуется задавать продолжительность раздела больше одного часа. Хотя при выборе продолжительности раздела меньше одного часа может уменьшаться задержка, создание большого количества разделов в цели также может повлиять на производительность целевой базы данных (особенно в системах с большим количеством изменений).
Если задача будет возобновлена ДО времени создания последнего раздела, задача промежуточного хранения в озере данных будет записывать информацию в раздел, который уже закрыт.
- Базовое время разбиения — разделы создаются в течение 24-часового периода времени, который рассчитывается в соответствии с базовым временем разбиения, указанным в исходной базе данных в формате UTC. Например, если интервал разделов составляет 8 часов, а базовое время разбиения — 02:00, то будут созданы следующие разделы: 02:00–10:00, 10:00–18:00, 18:00–02:00, но необязательно в таком порядке. Например, если задача запущена в 01:00, то временной интервал первого раздела будет 18:00–02:00. Кроме того, если задача запущена в середине раздела (например, в 04:00), изменения данных будут включены в раздел 02:00–10:00, даже если до 04:00 не было зарегистрировано никаких изменений.
Загрузка данных
Атрибуты файла
Формат
По выбору можно создать целевые файлы в формате CSV, JSON или Parquet.
В файле JSON каждая запись представлена одной строкой, как в следующем примере:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
См. также: Свойства content-type и content-encoding
- При выборе формата JSON или Parquet следующие поля будут скрыты, так как они релевантны только для формата CSV: Разделитель полей, Разделитель записей, Нулевое значение, Символ кавычек, Escape-символ кавычек и Добавить заголовок метаданных.
- Следующие поля применяются только для формата Parquet: Версия Parquet, Единица измерения метки времени Parquet и Минимальный размер LOB Parquet (КБ).
Для получения информации о сопоставлении типов данных при использовании формата Parquet и об ограничениях см. раздел Mapping from Qlik Cloud data types to Parquet .
Разделитель полей
Разделитель, который будет использоваться для разделения полей (столбцов) в целевых файлах. По умолчанию используется запятая.
Пример использования запятой в качестве разделителя:
"mike","male"
Разделители могут быть представлены стандартными символами или шестнадцатеричными значениями. Обратите внимание, что необходимо использовать префикс «0x
» для обозначения шестнадцатеричного разделителя (например, 0x01 = SOH
). В полях Разделитель полей, Разделитель записей и Нулевое значение разделитель может состоять из объединенных шестнадцатеричных значений (например, 0x0102
= SOHSTX
), а поля Символ кавычек и Escape-символ кавычек могут содержать только одно шестнадцатеричное значение.
Шестнадцатеричное число 0x00
не поддерживается (то есть, поддерживаются только 0x01
–0xFF
).
Нулевое значение
Строка, которая будет использоваться для указания нулевого значения в целевых файлах.
Пример (где «\n» является разделителем записей, а @ — это нулевое значение):
Разделитель записей
Разделитель, который будет использоваться для разделения записей (строк) в целевых файлах. По умолчанию это новая строка (\n
).
Пример:
Символ кавычек
Символ, который будет использоваться в начале и в конце текстового столбца. По умолчанию это символ двойных кавычек ("). Когда столбец, содержащий разделители столбцов, заключен в двойные кавычки, символы разделителей столбцов интерпретируются как фактические данные, а не как разделители.
Пример (где @ является символом кавычек):
Escape-символ кавычек
Символ, используемый для маскирования символа кавычек в фактических данных. По умолчанию это символ двойных кавычек (").
Пример (где «"» — это символ кавычек, а «\» — escape-символ):
Версия Parquet
Выберите, какую версию использовать в соответствии с тем, какую версию поддерживает целевая платформа. Обратите внимание, что Parquet версии 1.0 поддерживает только единицу измерения метки времени MICRO (МИКРО), а Parquet версии 2.6 поддерживает единицы MICRO и NANO (НАНО).
Единица измерения метки времени Parquet
Когда задана версия Parquet 2.6, выберите MICRO или NANO. Когда задана версия Parquet 1.0, поддерживается только MICRO.
Максимальный размер LOB Parquet (КБ)
По умолчанию максимальный размер LOB составляет 64 КБ, а максимальное значение, которое можно ввести в этом поле ― 10 000 КБ. Для обработки столбцов LOB требуется больше ресурсов, что, в свою очередь, влияет на производительность. Увеличивайте это значение, только если выполняется репликация данных LOB, размер которых превышает 64 КБ, и требуется, чтобы все данные LOB были реплицированы в цель.
Максимальный размер файла
Максимальный размер, по достижении которого файл закрывается (и сжимается, по выбору).
Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.
Сжимать файлы с помощью
Выберите один из вариантов сжатия, чтобы сжимать целевые файлы или NONE (НЕТ) (по умолчанию), чтобы оставить исходный размер. Обратите внимание, что доступные варианты сжатия определяются выбранным форматом файла.
Добавить заголовок метаданных
На свое усмотрение, можно добавить строку заголовка в файлы данных. Строка заголовка может содержать имена исходных столбцов и (или) промежуточные типы данных (то есть Qlik Talend Data Integration).
Пример целевого файла со строкой заголовка, когда установлены флажки С именами столбцов и С типами данных:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Обработка изменений
В этом разделе описаны условные параметры на странице Обработка изменений.
Применять/сохранять изменения в следующих случаях
- Размер файла достигает: укажите максимальный объем накапливаемых изменений данных, по достижении которого файл отправляется в цель.
- Прошедшее время достигает: прошедшее время достигает x.
Файлы метаданных
Когда установлен флажок Создать файлы метаданных в целевой папке, для каждого файла данных создается соответствующий файл метаданных с расширением .dfm в указанной целевой папке. Файл метаданных предоставляет дополнительную информацию о задаче/данных, например тип коннектора источника, имя исходной таблицы, количество записей в файле данных и пр.
Полное описание файла метаданных, а также его возможное применение см. в разделе Описание файла метаданных
Метаданные
Столбцы LOB
-
Включить столбцы LOB и ограничить размер столбцов до (КБ):
По выбору можно включить столбцы LOB и задать максимальный размер LOB. Большие объекты, чей размер больше максимального, обрезаются.
Управляющие таблицы
Выберите, какие из следующих управляющих таблиц требуется создать в целевой платформе:
- Состояние репликации: предоставляет сведения о текущей задаче промежуточного хранения, включая состояние задачи, объем памяти, потребляемой задачей, количество изменений, пока не примененных к платформе данных, и позиция в источнике данных, из которого в данный момент считываются данные.
- Приостановленные таблицы: предоставляет список приостановленных таблиц с указанием причин их приостановки.
- История репликации: предоставляет информацию об истории задач, включая количество и объем записей, обработанных во время задачи промежуточного хранения, задержка в конце задачи CDC и многое другое.
- Разделы данных изменений: предоставляет записи разделов, созданные в целевой базе данных вследствие Создание разделов изменений данных. Эти сведения можно использовать для идентификации разделенных данных, требующих дальнейшей обработки.
Для ознакомления с подробным описанием каждой управляющей таблицы см. раздел Управляющие таблицы
Полная загрузка
Настройка производительности
- Максимальное количество таблиц для параллельной загрузки: укажите максимальное количество таблиц, которое можно загружать в таблицу за один раз. Значение по умолчанию — 5.
-
Тайм-аут непротиворечивости транзакций (в секундах): введите количество секунд, в течение которого следует ожидать закрытия открытых транзакций, прежде чем начинать операцию полной загрузки. Значение по умолчанию — 600 (10 минут). Полная загрузка начнется по истечении времени тайм-аута, даже если остались открытые транзакции.
Примечание к информацииЧтобы реплицировать транзакции, открытые на момент начала полной загрузки, но зафиксированные только после истечения тайм-аута, необходимо перезагрузить целевые таблицы. - Скорость фиксации при полной загрузке: максимальное количество событий, передаваемых вместе. Значение по умолчанию — 10 000.
После завершения полной загрузки
Создать первичный ключ или уникальный индекс: установите этот параметр, если требуется отложить создание первичного ключа или уникального индекса на платформе данных до окончания полной загрузки.
Для начальной загрузки
При перемещении данных из источника приложений SaaS можно настроить порядок выполнения начальной полной загрузки.
Использовать кэшированные данные |
Этот параметр позволяет использовать кэшированные данные, которые были прочитаны при создании метаданных с установленным флажком Полное сканирование данных. Это уменьшает накладные расходы, связанные с квотами и использованием API, поскольку данные уже считаны из источника. Все изменения, внесенные после начального сканирования данных, можно получить в режиме «Захват изменений данных (CDC)». |
Загрузить данные из источника |
Этот параметр выполняет новую загрузку из источника данных. Этот параметр полезен, если:
|
Обработка сохранения изменений
столбцы заголовка таблицы изменений предоставляют информацию об операции обработки изменений, такую как тип операции (например, INSERT (ВСТАВИТЬ)), время фиксации и т. д. Если эта информация не нужна, можно настроить задачу данных так, чтобы создавать таблицы изменений без некоторых или всех столбцов заголовков, тем самым сокращая использование ресурсов целевой базы данных. Для этого снимите флажки рядом с заголовками столбцов, которые требуется исключить.
Обратите внимание, что нельзя удалять дополнительные столбцы или восстанавливать столбцы во время выполнения задачи. Чтобы изменить первоначальный выбор, сначала необходимо остановить задачу, затем выбрать нужные столбцы и в завершение перезагрузить целевые таблицы.
Когда включен параметр Создание разделов изменений данных, дополнительный столбец с именем «partition_name» добавляется в таблицы изменений и автоматически выбирается в интерфейсе пользователя. Так как этот столбец является обязательным, его нельзя исключить.
Для ознакомления с описанием столбцов заголовков см. раздел Использование таблиц изменений.
Обработка ошибок
Ошибки данных
Обработка ошибок данных поддерживается только при использовании метода обновления CDC (захват изменений данных).
Ошибки усечения данных
В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Другие ошибки данных
В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалация обработки ошибок данных
Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.
-
Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (landed).
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Ошибки таблицы
В случае ошибки таблицы; Выберите из списка одно из следующих действий:
- Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: для ошибок таблиц задается политика эскалации Остановить задачу, ее нельзя изменить.
Среда
-
Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.
Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».
Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»
-
Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.
Допустимые значения: 1-2000.
-
- Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
- Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.
Настройка обработки изменений
Настройка выгрузки транзакций
-
Выгрузить выполняемые транзакции на диск в следующих случаях:
Данные транзакции обычно сохраняются в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.
- Общий объем памяти для всех транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
- Длительность транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в Qlik Talend Data Integration. По умолчанию установлено значение 60.
Настройка пакета
-
Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.
Примечание к информацииИзменения будут применены к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает значение Максимальное время для сбора транзакций в пакет до применения (секунды), описанное ниже, — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время.
- Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.
Интервал
Этот параметр доступен, только когда:
- Использование Data Movement Gateway
- Промежуточное хранение данных из источников приложений SaaS
- Задача определена с использованием метода обновления Захват изменений данных (CDC)
Считывание изменений кажд. (минуты)
Задайте интервал в минутах между сеансами чтения изменений в источнике. Допустимый диапазон ― от 1 до 1440.
Прочие настройки
- Размер кэша для операторов (количество операторов): максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
-
Выполнить операции DELETE и INSERT при обновлении столбца первичного ключа: этот параметр требует, чтобы в исходной базе данных было включено ведение полных дополнительных журналов.
Эволюция схемы
Подстановка символов
Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.
-
Все символы должны быть указаны в виде кодовых точек Юникода.
- Подстановка символов также будет выполняться в управляющих таблицах.
-
Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.
-
Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.
-
Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.
- Подстановка символов не поддерживается для типов данных LOB.
Подстановка или удаление исходных символов
Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.
Параметр управления | Сделайте это |
---|---|
Определите действия подстановки. |
|
Изменение указанного исходного или целевого символа |
Нажмите кнопку в конце строки и выберите Изменить. |
Удаление записей из таблицы |
Нажмите кнопку в конце строки и выберите Удалить. |
Замена или удаление исходных символов, не поддерживаемых выбранным набором символов
Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.
Параметр управления | Сделайте это |
---|---|
Определите или измените действие подстановки. |
|
Отключите действие подстановки. |
Выберите пустую запись в раскрывающемся списке Набор символов. |
Дополнительные параметры
Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.
Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.
Планирование задач при работе без Data Movement Gateway
Data Movement Gateway не поддерживается при использовании подписки Qlik Talend Cloud Starter и является необязательным компонентом в других уровнях подписки. При работе без Data Movement Gateway CDC (захват изменений данных) практически в реальном времени не поддерживается. Актуальность целевых данных обеспечивается путем настройки интервала в графике. График определяет частоту обновления целевых наборов данных в соответствии с изменениями исходных наборов данных. Тогда как график определяет частоту обновления, тип набора данных определяет метод обновления. Если исходные наборы данных поддерживают CDC (Захват изменений данных), только изменения в исходных данных будут реплицированы в соответствующие целевые таблицы. Если исходные наборы данных не поддерживают CDC (например, «Виды»), изменения будут применены путем перезагрузки всех исходных данных в соответствующие целевые таблицы. Если одни исходные наборы данных поддерживают CDC, а другие нет, будут созданы две подзадачи (предположим, для параметра Захват данных изменений (CDC) выбран метод обновления ): один для перезагрузки наборов данных, которые не поддерживают CDC, а другой для захвата изменений наборов данных, не поддерживающих CDC. В данном случае для обеспечения согласованности данных настоятельно рекомендуется настроить одинаковый график для обеих подзадач.
Чтобы изменить график, выполните следующие действия.
-
Откройте проект данных, а затем выполните одно из следующих действий:
- В виде задачи щелкните рядом с задачей данных и выберите Планирование.
- В виде конвейера щелкните рядом с задачей данных и выберите Планирование.
- Откройте задачу репликации и нажмите кнопку Планирование на панели инструментов.
- Измените параметры планирования по необходимости, затем нажмите кнопку ОК.