Перейти к основному содержимому Перейти к дополнительному содержимому

Параметры промежуточного хранения в озере данных

В соответствии с потребностями можно изменить параметры по умолчанию для промежуточного хранения данных в озере.

Общее

Метод обновления

Промежуточное хранение данных можно осуществлять двумя разными способами. После завершения подготовки задачи промежуточного хранения в озере данных режим изменить невозможно.

  • Захват изменений данных (CDC): задачи промежуточного хранения в озере данных начинаются с полной загрузки (во время которой все выбранные таблицы помещаются на промежуточное хранение). После этого актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват данных изменений).

    Примечание к информацииCDC (Захват изменений данных) для операций DDL не поддерживается.
  • Перезагрузить: выполняется полная загрузка данных из выбранных исходных таблиц на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но при необходимости ее можно выполнять вручную или по расписанию на регулярной основе.

Папка для использования

Выберите одно из перечисленного ниже в зависимости от того, в какую папку блока требуется записывать файлы:

  • Папка по умолчанию: Формат папки по умолчанию: <имя_проекта>/<имя_задачи>
  • Корневая папка: файлы будут записываться прямо в блок.
  • Папка: укажите имя папки. Если папка не существует, она будет создана при выполнении задачи промежуточного хранения в озере данных.

    Примечание к информации Имя папки не должно включать специальных символов (например, @, #, ! и т. д.).

Создание разделов изменений данных

Примечание к информацииЭтот параметр доступен только при использовании метода обновления CDC (захват изменений данных).

В стандартной задаче промежуточного хранения изменения передаются в цель без соблюдения какого-то определенного порядка. Функция «Создание разделов изменений данных» позволяет согласованно обрабатывать данные изменений из нескольких таблиц. Можно определить продолжительность разделов, а также базовое время разбиения, чтобы тем самым обеспечить общую согласованность разделенных данных (то есть нет частичных транзакций, нет заголовков заказов без строк заказа и т. д.)

Информация о разделах вносится в управляющую таблицу attrep_cdc_partitions в целевой базе данных. Эти сведения можно использовать для идентификации разделенных данных, требующих дальнейшей обработки.

  • Раздел кажд. — укажите продолжительность каждого раздела (в часах и минутах).

    Примечание к информации

    Рекомендуется задавать продолжительность раздела больше одного часа. Хотя при выборе продолжительности раздела меньше одного часа может уменьшаться задержка, создание большого количества разделов в цели также может повлиять на производительность целевой базы данных (особенно в системах с большим количеством изменений).

    Если задача будет возобновлена ДО времени создания последнего раздела, задача промежуточного хранения в озере данных будет записывать информацию в раздел, который уже закрыт.

  • Базовое время разбиения — разделы создаются в течение 24-часового периода времени, который рассчитывается в соответствии с базовым временем разбиения, указанным в исходной базе данных в формате UTC. Например, если интервал разделов составляет 8 часов, а базовое время разбиения — 02:00, то будут созданы следующие разделы: 02:00–10:00, 10:00–18:00, 18:00–02:00, но необязательно в таком порядке. Например, если задача запущена в 01:00, то временной интервал первого раздела будет 18:00–02:00. Кроме того, если задача запущена в середине раздела (например, в 04:00), изменения данных будут включены в раздел 02:00–10:00, даже если до 04:00 не было зарегистрировано никаких изменений.

Загрузка данных

Атрибуты файла

Формат

По выбору можно создать целевые файлы в формате CSV, JSON или Parquet.

Примечание к информацииПри использовании формата файла Parquet не поддерживаются столбцы LOB больше 1 МБ.

В файле JSON каждая запись представлена одной строкой, как в следующем примере:

{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }

{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }

{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }

См. также: Свойства content-type и content-encoding

Примечание к информацииНе поддерживается изменение формата (например, с CSV на JSON или с JSON на CSV), когда задача находится в остановленном состоянии, и последующее возобновление задачи.
Примечание к информации
  • При выборе формата JSON или Parquet следующие поля будут скрыты, так как они релевантны только для формата CSV: Разделитель полей, Разделитель записей, Нулевое значение, Символ кавычек, Escape-символ кавычек и Добавить заголовок метаданных.
  • Следующие поля применяются только для формата Parquet: Версия Parquet, Единица измерения метки времени Parquet и Минимальный размер LOB Parquet (КБ).

Для получения информации о сопоставлении типов данных при использовании формата Parquet и об ограничениях см. разделы Supported data types и Amazon S3.

Разделитель полей

Разделитель, который будет использоваться для разделения полей (столбцов) в целевых файлах. По умолчанию используется запятая.

Пример использования запятой в качестве разделителя:

"mike","male"

Разделители могут быть представлены стандартными символами или шестнадцатеричными значениями. Обратите внимание, что необходимо использовать префикс «0x» для обозначения шестнадцатеричного разделителя (например, 0x01 = SOH). В полях Разделитель полей, Разделитель записей и Нулевое значение разделитель может состоять из объединенных шестнадцатеричных значений (например, 0x0102 = SOHSTX), а поля Символ кавычек и Escape-символ кавычек могут содержать только одно шестнадцатеричное значение.

Шестнадцатеричное число 0x00 не поддерживается (то есть, поддерживаются только 0x010xFF).

Нулевое значение

Строка, которая будет использоваться для указания нулевого значения в целевых файлах.

Пример (где «\n» является разделителем записей, а @ — это нулевое значение):

"mike","male",295678\n
"sara","female",@\n

Разделитель записей

Разделитель, который будет использоваться для разделения записей (строк) в целевых файлах. По умолчанию это новая строка (\n).

Пример:

"mike","male"\n
"sara","female"\n

Символ кавычек

Символ, который будет использоваться в начале и в конце текстового столбца. По умолчанию это символ двойных кавычек ("). Когда столбец, содержащий разделители столбцов, заключен в двойные кавычки, символы разделителей столбцов интерпретируются как фактические данные, а не как разделители.

Пример (где @ является символом кавычек):

@mike@,@male@

Escape-символ кавычек

Символ, используемый для маскирования символа кавычек в фактических данных. По умолчанию это символ двойных кавычек (").

Пример (где «"» — это символ кавычек, а «\» — escape-символ):

1955,"old, \"rare\", Chevrolet","$1000"

Версия Parquet

Выберите, какую версию использовать в соответствии с тем, какую версию поддерживает целевая платформа. Обратите внимание, что Parquet версии 1.0 поддерживает только единицу измерения метки времени MICRO (МИКРО), а Parquet версии 2.6 поддерживает единицы MICRO и NANO (НАНО).

Единица измерения метки времени Parquet

Когда задана версия Parquet 2.6, выберите MICRO или NANO. Когда задана версия Parquet 1.0, поддерживается только MICRO.

Максимальный размер LOB Parquet (КБ)

По умолчанию максимальный размер LOB составляет 64 КБ, а максимальное значение, которое можно ввести в этом поле ― 10 000 КБ. Для обработки столбцов LOB требуется больше ресурсов, что, в свою очередь, влияет на производительность. Увеличивайте это значение, только если выполняется репликация данных LOB, размер которых превышает 64 КБ, и требуется, чтобы все данные LOB были реплицированы в цель.

Максимальный размер файла

Максимальный размер, по достижении которого файл закрывается (и сжимается, по выбору).

Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.

Сжимать файлы с помощью

Выберите один из вариантов сжатия, чтобы сжимать целевые файлы или NONE (НЕТ) (по умолчанию), чтобы оставить исходный размер. Обратите внимание, что доступные варианты сжатия определяются выбранным форматом файла.

Добавить заголовок метаданных

На свое усмотрение, можно добавить строку заголовка в файлы данных. Строка заголовка может содержать имена исходных столбцов и (или) промежуточные типы данных (то есть Data Movement Gateway).

Пример целевого файла со строкой заголовка, когда установлены флажки С именами столбцов и С типами данных:

Position:DECIMAL(38,0),Color:VARCHAR(10)

1,"BLUE"

2,"BROWN"

3,"RED"

...

Обработка изменений

В этом разделе описаны условные параметры на странице Обработка изменений.

Применять/сохранять изменения в следующих случаях

  • Размер файла достигает: укажите максимальный объем накапливаемых изменений данных, по достижении которого файл отправляется в цель.
  • Прошедшее время достигает: прошедшее время достигает x.

Файлы метаданных

Когда установлен флажок Создать файлы метаданных в целевой папке, для каждого файла данных создается соответствующий файл метаданных с расширением .dfm в указанной целевой папке. Файл метаданных предоставляет дополнительную информацию о задаче/данных, например тип коннектора источника, имя исходной таблицы, количество записей в файле данных и пр.

Полное описание файла метаданных, а также его возможное применение см. в разделе Описание файла метаданных

Метаданные

Столбцы LOB

  • Включить столбцы LOB и ограничить размер столбцов до (КБ):

    По выбору можно включить столбцы LOB и задать максимальный размер LOB. Большие объекты, чей размер больше максимального, обрезаются.

Управляющие таблицы

Выберите, какие из следующих управляющих таблиц требуется создать в целевой платформе:

  • Состояние Промежуточное хранение: предоставляет сведения о текущей задаче промежуточного хранения, включая состояние задачи, объем памяти, потребляемой задачей, количество изменений, пока не примененных к платформе данных, и позиция в исходной конечной точке, из которой Data Movement Gateway в данный момент считывает данные.
  • Приостановленные таблицы: предоставляет список приостановленных таблиц с указанием причин их приостановки.
  • История Промежуточное хранение: предоставляет информацию об истории задач, включая количество и объем записей, обработанных во время задачи промежуточного хранения, задержка в конце задачи CDC и многое другое.
  • Разделы данных изменений: предоставляет записи разделов, созданные в целевой базе данных вследствие Создание разделов изменений данных. Эти сведения можно использовать для идентификации разделенных данных, требующих дальнейшей обработки.

Для ознакомления с подробным описанием каждой управляющей таблицы см. раздел Управляющие таблицы

Полная загрузка

Настройка производительности

  • Максимальное количество таблиц для параллельной загрузки: укажите максимальное количество таблиц, которое можно загружать в таблицу за один раз. Значение по умолчанию — 5.
  • Тайм-аут непротиворечивости транзакций (в секундах): введите количество секунд, в течение которого следует ожидать закрытия открытых транзакций, прежде чем начинать операцию полной загрузки. Значение по умолчанию — 600 (10 минут). Полная загрузка начнется по истечении времени тайм-аута, даже если остались открытые транзакции.

    Примечание к информацииЧтобы реплицировать транзакции, открытые на момент начала полной загрузки, но зафиксированные только после истечения тайм-аута, необходимо перезагрузить целевые таблицы.
  • Скорость фиксации при полной загрузке: максимальное количество событий, передаваемых вместе. Значение по умолчанию — 10 000.

После завершения полной загрузки

Создать первичный ключ или уникальный индекс: установите этот параметр, если требуется отложить создание первичного ключа или уникального индекса на платформе данных до окончания полной загрузки.

Для начальной загрузки

Примечание к информацииЭта вкладка релевантна только для задач репликации с источниками приложений SaaS.

При перемещении данных из источника приложений SaaS можно настроить порядок выполнения начальной полной загрузки.

Примечание к информацииДля использования этих параметров требуется Data Movement Gateway версии 2022.11.74 или более поздней.
Использовать кэшированные данные

Этот параметр позволяет использовать кэшированные данные, которые были прочитаны при создании метаданных с установленным флажком Полное сканирование данных.

Это уменьшает накладные расходы, связанные с квотами и использованием API, поскольку данные уже считаны из источника. Все изменения, внесенные после начального сканирования данных, можно получить в режиме «Захват данных изменений (CDC)».

Загрузить данные из источника

Этот параметр выполняет новую загрузку из источника данных. Этот параметр полезен, если:

  • в последнее время не выполнялось сканирование метаданных;

  • исходный набор данных имеет небольшой размер и часто изменяется, а вы не хотите сохранять полную историю изменений.

Обработка ошибок

Ошибки данных

Примечание к информации

Обработка ошибок данных поддерживается только при использовании метода обновления CDC (захват изменений данных).

Ошибки усечения данных

В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:

  • Игнорировать: задача продолжается, ошибка игнорируется.
  • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Другие ошибки данных

В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:

  • Игнорировать: задача продолжается, ошибка игнорируется.
  • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Эскалация обработки ошибок данных

Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.

  • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (landed).

  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Ошибки таблицы

В случае ошибки таблицы; Выберите из списка одно из следующих действий:

  • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Эскалировать обработку при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

Действие при эскалации: для ошибок таблиц задается политика эскалации Остановить задачу, ее нельзя изменить.

Среда

  • Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.

    Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».

    Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»

    • Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.

      Допустимые значения: 1-2000.

  • Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
    • Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.

Настройка обработки изменений

Примечание к информацииЭтот параметр доступен только при использовании метода обновления CDC (захват изменений данных).

Настройка выгрузки транзакций

  • Выгрузить выполняемые транзакции на диск в следующих случаях:

    Данные транзакции обычно сохраняются в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.

    • Общий объем памяти для всех транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
    • Длительность транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в Data Movement Gateway. По умолчанию установлено значение 60.

Настройка пакета

  • Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.

    Примечание к информации

    Изменения будут применены к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает значение Максимальное время для сбора транзакций в пакет до применения (секунды), описанное ниже, — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время.

  • Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.

Интервал

Примечание к информацииЭта вкладка релевантная только для задач репликации с источниками приложений SaaS и только когда для параметра Метод обновления задано значение Захват изменений данных (CDC).

Считывание изменений кажд. (минуты)

Задайте интервал в минутах между сеансами чтения изменений в источнике. Допустимый диапазон ― от 1 до 1440.

Прочие настройки

  • Размер кэша для операторов (количество операторов): максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
  • Выполнить операции DELETE и INSERT при обновлении столбца первичного ключа: этот параметр требует, чтобы в исходной базе данных было включено ведение полных дополнительных журналов.

Подстановка символов

Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.

Примечание к информации
  • Все символы должны быть указаны в виде кодовых точек Юникода.

  • Подстановка символов также будет выполняться в управляющих таблицах.
  • Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.

  • Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.

  • Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.

  • Подстановка символов не поддерживается для типов данных LOB.

Подстановка или удаление исходных символов

Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.

Действия подстановки
Параметр управления Сделайте это

Определите действия подстановки.

  1. Нажмите кнопку Добавить символ над таблицей.

  2. Заполните поля Исходный символ и Целевой символ.

    Например, чтобы заменить букву «a» букву «e», укажите 0061 и 0065 соответственно.

    Примечание к информации

    Чтобы удалить указанный исходный символ, введите 0 в столбце Подставить символ.

  3. Повторите действия 1-2, чтобы заменить или удалить другие символы.

Изменение указанного исходного или целевого символа

Нажмите кнопку в конце строки и выберите Изменить.

Удаление записей из таблицы

Нажмите кнопку в конце строки и выберите Удалить.

Замена или удаление исходных символов, не поддерживаемых выбранным набором символов

Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.

Действия по замене неподдерживаемых символов
Параметр управления Сделайте это

Определите или измените действие подстановки.

  1. В таблице выберите набор символов в раскрывающемся списке Набор символов.

    Любые символы, не поддерживаемые выбранным набором символов, будут заменены в цели символом, указанным в шаге 2 ниже.

  2. Щелкните в столбце Подставить символ и укажите символ замены. Например, чтобы заменить все неподдерживаемые символы буквой «a», введите 0061.

    Примечание к информации

    Чтобы удалить все неподдерживаемые символы, введите 0.

Отключите действие подстановки.

Выберите пустую запись в раскрывающемся списке Набор символов.

Дополнительные параметры

Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.

Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!