Перейти к основному содержимому Перейти к дополнительному содержимому

Параметры промежуточного хранения

Можно настроить параметры задачи промежуточного хранения.

  • Откройте задачу промежуточного хранения и щелкните Параметры на панели инструментов.

Откроется диалоговое окно Параметры: <Имя_задачи>. Доступные параметры описаны ниже.

Общее

  • База данных

    Целевая база данных.

    Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3).
  • Схема задачи данных

    Можно изменить имя схемы задачи промежуточного хранения данных. Значение по умолчанию: промежуточное хранение.

    Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3).
  • Префикс для всех таблиц и видов

    Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.

    Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3).
    Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных.
  • Метод обновления

    Задача промежуточного хранения всегда начинается с полной загрузки. После завершения полной загрузки можно поддерживать актуальность данных на промежуточном хранении одним из следующих способов.

    Примечание к информацииПосле завершения подготовки задачи данных промежуточного хранения способ обновления изменить невозможно.
    • Захват изменений данных (CDC)

      Актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват изменений данных). Не все источники данных поддерживают CDC. CDC не обрабатывает операции DDL, такие как переименование столбцов или изменение метаданных.

      Если данные также содержат виды или таблицы, которые не поддерживают CDC, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка и сравнение в качестве метода обновления.

    • Перезагрузка и сравнение

      Все данные на промежуточном хранении перезагружаются из источника. Это полезно, если источник не поддерживает CDC, но может использоваться в качестве поддерживаемого источника данных.

      Можно запланировать периодическое выполнение перезагрузок.

  • Папка для использования в промежуточной области

    Для платформ данных, которым требуется промежуточная область (например, Databricks и Azure Synapse Analytics), можно выбрать, какая папка будет использоваться для промежуточного хранения данных.

    • Папка по умолчанию

      Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.

    • Корневая папка

      Данные сохраняются в корневой папке хранилища.

      Примечание к информацииПараметр доступен, только если данные помещаются на промежуточное хранение в Qlik Cloud (через Amazon S3).
    • Папка

      Укажите имя используемой папки.

  • Интервал обработки изменений

    Можно задать интервал обработки изменений, полученных из источника.

    Примечание к информацииПараметр доступен, только если данные помещаются на промежуточное хранение в Qlik Cloud (через Amazon S3).
  • Прокси-сервер при использовании Data Movement Gateway

    Можно выбрать использование прокси-сервера при подключении шлюза Перемещение данных к облачному хранилищу данных и хранилищу.

    Для получения дополнительной информации о настройке шлюза Перемещение данных для использования прокси-сервера см. раздел Настройка клиента Qlik Cloud и прокси-сервера.

    • Использовать прокси-сервер для подключения к облачному хранилищу данных

      Примечание к информацииОпция доступна при использовании Snowflake, Google BigQuery и Databricks.
    • Использовать прокси-сервер для подключения к хранилищу

      Примечание к информацииОпция доступна при использовании Azure Synapse Analytics, Amazon Redshift и Databricks.

Загрузка данных

  • Максимальный размер файла (МБ)

    Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.

    Примечание к информацииЭтот параметр применяется для всех платформ данных, кроме Qlik Cloud.
  • Использовать сжатие

    Когда установлен этот флажок, файлы CSV будут сжиматься (в архив gzip) перед загрузкой в Google BigQuery.

    Примечание к информации
    • Этот параметр применим только для Google BigQuery.
    • Требует Data Movement Gateway 2023.5.16 или более поздней версии.

Метаданные

Столбцы LOB

  • Включить столбцы LOB и ограничить размер столбцов до (КБ):

    По выбору можно включить столбцы LOB и задать максимальный размер LOB. Большие объекты, чей размер больше максимального, обрезаются.

    Примечание к информацииЕсли в качестве целевого объекта используется Azure Synapse Analytics, максимальный размер LOB не может превышать 7 МБ.

Управляющие таблицы

Выберите, какие из следующих управляющих таблиц требуется создать в целевой платформе:

  • Состояние промежуточного хранения: Предоставляет сведения о текущей задаче промежуточного хранения, включая состояние задачи, объем памяти, потребляемой задачей, количество изменений, пока не примененных к платформе данных, и позиция в исходной конечной точке, из которой Data Movement Gateway в данный момент считывает данные.п
  • Приостановленные таблицы: предоставляет список приостановленных таблиц с указанием причин их приостановки.
  • История промежуточного хранения: предоставляет информацию об истории задач, включая количество и объем записей, обработанных во время задачи промежуточного хранения, задержка в конце задачи CDC и многое другое.
  • История DDL: содержит историю всех поддерживаемых изменений DDL, которые имели место во время выполнения задачи.

    Примечание к информации

    Таблица «История DDL» сейчас поддерживается только для следующих платформ данных:

    • Databricks

    • Microsoft Fabric Data Warehouse

Для ознакомления с подробным описанием каждой управляющей таблицы см. Управляющие таблицы

Полная загрузка

Настройка производительности

  • Максимальное количество таблиц для параллельной загрузки: укажите максимальное количество таблиц, которое можно загружать в таблицу за один раз. Значение по умолчанию — 5.
  • Тайм-аут непротиворечивости транзакций (в секундах): введите количество секунд, в течение которых требуется ждать закрытия открытых транзакций перед началом операции полной загрузки. Значение по умолчанию — 600 (10 минут). Полная загрузка начнется по истечении времени тайм-аута, даже если остались открытые транзакции.

    Примечание к информацииЧтобы реплицировать транзакции, открытые на момент начала полной загрузки, но зафиксированные только после истечения тайм-аута, необходимо перезагрузить целевые таблицы.
  • Скорость фиксации при полной загрузке: максимальное количество событий, передаваемых вместе. Значение по умолчанию — 10 000.

После завершения полной загрузки

Создать первичный ключ или уникальный индекс: установите этот параметр, если требуется отложить создание первичного ключа или уникального индекса на платформе данных до окончания полной загрузки.

Обработка ошибок

Ошибки данных

Примечание к информации

Обработка ошибок данных поддерживается только при использовании метода обновления CDC (захват изменений данных).

В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:

  • Игнорировать: задача продолжается, ошибка игнорируется.
  • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:

  • Игнорировать: задача продолжается, ошибка игнорируется.
  • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.

  • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (landed).

  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Ошибки таблицы

В случае ошибки таблицы; Выберите из списка одно из следующих действий:

  • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
  • Остановить задачу: задача останавливается, требуется вмешательство вручную.

Эскалировать обработку при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

Действие при эскалации: для ошибок таблиц задается политика эскалации Остановить задачу, ее нельзя изменить.

Среда

  • Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.

    Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».

    Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»

    • Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.

      Допустимые значения: 1-2000.

  • Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
    • Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.

Настройка обработки изменений

Примечание к информацииЭтот параметр доступен только при использовании метода обновления CDC (захват изменений данных).

Настройка выгрузки транзакций

  • Выгрузить выполняемые транзакции на диск в следующих случаях:

    Данные транзакции обычно сохраняются в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.

    • Общий объем памяти для всех транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
    • Длительность хранения транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в Data Movement Gateway. По умолчанию установлено значение 60.

Прочие настройки

  • Размер кэша для операторов (количество операторов): максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
  • Выполнить операции DELETE и INSERT при обновлении столбца первичного ключа: этот параметр требует, чтобы в исходной базе данных было включено ведение полных дополнительных журналов.

Настройка пакета

Некоторые параметры на этой вкладке

  • Применение пакетных изменений с интервалами:
    • Больше: минимальный интервал времени ожидания между применением пакетов изменений. Значение по умолчанию — 1.

      При увеличении значения Больше уменьшается частота, с которой применяются изменения к цели, и увеличивается размер пакетов. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.

    • Меньше: максимальный интервал времени ожидания между применением пакетов изменений (после которого объявляется тайм-аут). Другими словами, максимально допустимая задержка. Значение по умолчанию — 30. Это значение определяет максимальный интервал времени ожидания перед применением изменений, после достижения значения Больше.
  • Принудительное применение пакета при превышении объема памяти для обработки (МБ): максимальный объем памяти, который может использоваться для предварительной обработки. Значение по умолчанию — 500 МБ.

    Для поддержки максимального размера пакетов задайте самый большой объем памяти, который можно выделить для Data Movement Gateway. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.

  • Одновременно применять пакетные изменения к нескольким таблицам: установите этот флажок, чтобы улучшить производительность при применении изменений из нескольких исходных таблиц.

    • Максимальное количество таблиц: максимальное количество таблиц для одновременного применения пакетных изменений. Значение по умолчанию ― 5.

    Примечание к информацииЭтот параметр не поддерживается при использовании платформы данных Google BigQuery.
  • Ограничить количество изменений, применяемых в одном операторе обработки изменений: установите этот флажок, чтобы ограничить количество изменений, применяемых в одном операторе обработки изменений. Значение по умолчанию — 10 000.

    Примечание к информацииЭтот параметр поддерживается только при использовании платформы данных Google BigQuery.
  • Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.

    Примечание к информации

    Изменения будут применены к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает значение Максимальное время для сбора транзакций в пакет до применения (секунды), описанное ниже, — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время.

  • Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.

Подстановка символов

Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.

Примечание к информации
  • Все символы должны быть указаны в виде кодовых точек Юникода.

  • Подстановка символов также будет выполняться в управляющих таблицах.
  • Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.

  • Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.

  • Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.

  • Подстановка символов не поддерживается для типов данных LOB.

Подстановка или удаление исходных символов

Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.

Действия подстановки
Параметр управления Сделайте это

Определите действия подстановки.

  1. Нажмите кнопку Добавить символ над таблицей.

  2. Заполните поля Исходный символ и Целевой символ.

    Например, чтобы заменить букву «a» букву «e», укажите 0061 и 0065 соответственно.

    Примечание к информации

    Чтобы удалить указанный исходный символ, введите 0 в столбце Подставить символ.

  3. Повторите действия 1-2, чтобы заменить или удалить другие символы.

Изменение указанного исходного или целевого символа

Нажмите кнопку в конце строки и выберите Изменить.

Удаление записей из таблицы

Нажмите кнопку в конце строки и выберите Удалить.

Замена или удаление исходных символов, не поддерживаемых выбранным набором символов

Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.

Действия по замене неподдерживаемых символов
Параметр управления Сделайте это

Определите или измените действие подстановки.

  1. В таблице выберите набор символов в раскрывающемся списке Набор символов.

    Любые символы, не поддерживаемые выбранным набором символов, будут заменены в цели символом, указанным в шаге 2 ниже.

  2. Щелкните в столбце Подставить символ и укажите символ замены. Например, чтобы заменить все неподдерживаемые символы буквой «a», введите 0061.

    Примечание к информации

    Чтобы удалить все неподдерживаемые символы, введите 0.

Отключите действие подстановки.

Выберите пустую запись в раскрывающемся списке Набор символов.

Дополнительные параметры

Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.

Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.

Приложение SaaS

Примечание к информацииЭта вкладка доступна, когда данные перемещаются из источников приложений SaaS.
Примечание к информации
  • Параметр Интервал обработки изменений перенесен на вкладку Общие.
  • Параметр Параллельное выполнение теперь называется Максимальное количество таблиц для параллельной загрузки и находится на вкладке Полная загрузка.
  • Параметр LOB теперь называется Включить столбцы LOB и ограничить размер столбцов до (КБ) и находится на вкладке Метаданные.
  • Для начальной загрузки

  • При перемещении данных из источника приложений SaaS можно настроить порядок выполнения начальной полной загрузки.

    Примечание к информацииДля использования этих параметров требуется Data Movement Gateway версии 2022.11.74 или более поздней.
    Использовать кэшированные данные

    Этот параметр позволяет использовать кэшированные данные, которые были прочитаны при создании метаданных с установленным флажком Полное сканирование данных.

    Это уменьшает накладные расходы, связанные с квотами и использованием API, поскольку данные уже считаны из источника. Все изменения, внесенные после начального сканирования данных, можно получить в режиме «Захват данных изменений (CDC)».

    Загрузить данные из источника

    Этот параметр выполняет новую загрузку из источника данных. Этот параметр полезен, если:

    • в последнее время не выполнялось сканирование метаданных;

    • исходный набор данных имеет небольшой размер и часто изменяется, а вы не хотите сохранять полную историю изменений.

  • Считывание изменений кажд. (минуты)

    Задайте интервал в минутах между сеансами чтения изменений в источнике. Допустимый диапазон от 1 до 1440.

    Примечание к информацииЭтот параметр доступен только для задачи данных с методом обновления «Захват изменений данных» (CDC).

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!