Параметры промежуточного хранения
Можно настроить параметры задачи промежуточного хранения.
-
Откройте задачу промежуточного хранения и щелкните Параметры на панели инструментов.
Откроется диалоговое окно Параметры: <Имя_задачи>. Доступные параметры описаны ниже.
Общее
-
База данных
Целевая база данных.
Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3). -
Схема задачи
Можно изменить имя схемы задачи промежуточного хранения данных. Значение по умолчанию: промежуточное хранение.
Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3). -
Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииЭтот вариант недоступен при помещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3).Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
Метод обновления
Задача промежуточного хранения всегда начинается с полной загрузки. После завершения полной загрузки можно поддерживать актуальность данных на промежуточном хранении одним из следующих способов.
Примечание к информацииПосле завершения подготовки задачи данных промежуточного хранения способ обновления изменить невозможно.-
Захват изменений данных (CDC)
Актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват изменений данных). Не все источники данных поддерживают CDC. CDC не обрабатывает операции DDL, такие как переименование столбцов или изменение метаданных.
Если данные также содержат виды или таблицы, которые не поддерживают CDC, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка и сравнение в качестве метода обновления.
-
Перезагрузка и сравнение
Все данные на промежуточном хранении перезагружаются из источника. Это полезно, если источник не поддерживает CDC, но может использоваться в качестве поддерживаемого источника данных.
Можно запланировать периодическое выполнение перезагрузок.
-
-
Папка для использования в промежуточной области
Для платформ данных, которым требуется промежуточная область (например, Databricks и Azure Synapse Analytics), можно выбрать, какая папка будет использоваться для промежуточного хранения данных.
-
Папка по умолчанию
Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.
-
Корневая папка
Данные сохраняются в корневой папке хранилища.
Примечание к информацииПараметр доступен, только если данные помещаются на промежуточное хранение в Qlik Cloud (через Amazon S3). -
Папка
Укажите имя используемой папки.
-
-
Интервал обработки изменений
Можно задать интервал обработки изменений, полученных из источника.
Примечание к информацииПараметр доступен, только если данные помещаются на промежуточное хранение в Qlik Cloud (через Amazon S3). -
Прокси-сервер при использовании шлюза для перемещения данных
Примечание к информацииЭтот вариант доступен только при использовании Data Movement Gateway для доступа к целям.Можно выбрать использование прокси-сервера при подключении шлюза Перемещение данных к облачному хранилищу данных и хранилищу.
Для получения дополнительной информации о настройке шлюза Перемещение данных для использования прокси-сервера см. раздел Настройка клиента Qlik Cloud и прокси-сервера.
-
Использовать прокси-сервер для подключения к облачному хранилищу данных
Примечание к информацииОпция доступна при использовании Snowflake, Google BigQuery и Databricks. -
Использовать прокси-сервер для подключения к хранилищу
Примечание к информацииОпция доступна при использовании Azure Synapse Analytics, Amazon Redshift и Databricks.
-
Загрузка данных
-
Максимальный размер файла (МБ)
Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.
Примечание к информацииЭтот параметр применяется для всех платформ данных, кроме Qlik Cloud. -
Использовать сжатие
Когда установлен этот флажок, файлы CSV будут сжиматься (в архив gzip) перед загрузкой в Google BigQuery.
Примечание к информации- Этот параметр применим только для Google BigQuery.
- Требует Data Movement Gateway 2023.5.16 или более поздней версии.
Метаданные
Столбцы LOB
-
Включить столбцы LOB и ограничить размер столбцов до (КБ):
По выбору можно включить столбцы LOB и задать максимальный размер LOB. Большие объекты, чей размер больше максимального, обрезаются.
Примечание к информацииЕсли в качестве целевого объекта используется Azure Synapse Analytics, максимальный размер LOB не может превышать 7 МБ.
Управляющие таблицы
Выберите, какие из следующих управляющих таблиц требуется создать в целевой платформе:
- Состояние промежуточного хранения: Предоставляет сведения о текущей задаче промежуточного хранения, включая состояние задачи, объем памяти, потребляемой задачей, количество изменений, пока не примененных к платформе данных, и позиция в исходной конечной точке, из которой Data Movement Gateway в данный момент считывает данные.п
- Приостановленные таблицы: предоставляет список приостановленных таблиц с указанием причин их приостановки.
- История промежуточного хранения: предоставляет информацию об истории задач, включая количество и объем записей, обработанных во время задачи промежуточного хранения, задержка в конце задачи CDC и многое другое.
-
История DDL: содержит историю всех поддерживаемых изменений DDL, которые имели место во время выполнения задачи.
Примечание к информацииТаблица «История DDL» поддерживается только для следующих целевых платформ:
-
Databricks
- Microsoft Fabric
-
Для ознакомления с подробным описанием каждой управляющей таблицы см. раздел Управляющие таблицы
Полная загрузка
Настройка производительности
- Максимальное количество таблиц для параллельной загрузки: укажите максимальное количество таблиц, которое можно загружать в таблицу за один раз. Значение по умолчанию — 5.
-
Тайм-аут непротиворечивости транзакций (в секундах): введите количество секунд, в течение которого следует ожидать закрытия открытых транзакций, прежде чем начинать операцию полной загрузки. Значение по умолчанию — 600 (10 минут). Полная загрузка начнется по истечении времени тайм-аута, даже если остались открытые транзакции.
Примечание к информацииЧтобы реплицировать транзакции, открытые на момент начала полной загрузки, но зафиксированные только после истечения тайм-аута, необходимо перезагрузить целевые таблицы. - Скорость фиксации при полной загрузке: максимальное количество событий, передаваемых вместе. Значение по умолчанию — 10 000.
После завершения полной загрузки
Создать первичный ключ или уникальный индекс: установите этот параметр, если требуется отложить создание первичного ключа или уникального индекса на платформе данных до окончания полной загрузки.
Для начальной загрузки
При перемещении данных из источника приложений SaaS можно настроить порядок выполнения начальной полной загрузки.
Использовать кэшированные данные |
Этот параметр позволяет использовать кэшированные данные, которые были прочитаны при создании метаданных с установленным флажком Полное сканирование данных. Это уменьшает накладные расходы, связанные с квотами и использованием API, поскольку данные уже считаны из источника. Все изменения, внесенные после начального сканирования данных, можно получить в режиме «Захват изменений данных (CDC)». |
Загрузить данные из источника |
Этот параметр выполняет новую загрузку из источника данных. Этот параметр полезен, если:
|
Обработка ошибок
Ошибки данных
Обработка ошибок данных поддерживается только при использовании метода обновления CDC (захват изменений данных).
В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.
-
Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (landed).
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Ошибки таблицы
В случае ошибки таблицы; Выберите из списка одно из следующих действий:
- Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: для ошибок таблиц задается политика эскалации Остановить задачу, ее нельзя изменить.
Среда
-
Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.
Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».
Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»
-
Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.
Допустимые значения: 1-2000.
-
- Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
- Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.
Настройка обработки изменений
Настройка выгрузки транзакций
-
Выгрузить выполняемые транзакции на диск в следующих случаях:
Данные транзакции обычно сохраняются в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.
- Общий объем памяти для всех транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
- Длительность транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в Qlik Talend Data Integration. По умолчанию установлено значение 60.
Настройка пакета
Некоторые параметры на этой вкладке
Параметры, применимые для всех целей, кроме Qlik Cloud:
- Применение пакетных изменений с интервалами:
-
Больше: минимальный интервал времени ожидания между применением пакетов изменений. Значение по умолчанию — 1.
При увеличении значения Больше уменьшается частота, с которой применяются изменения к цели, и увеличивается размер пакетов. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.
- Меньше: максимальный интервал времени ожидания между применением пакетов изменений (после которого объявляется тайм-аут). Другими словами, максимально допустимая задержка. Значение по умолчанию — 30. Это значение определяет максимальный интервал времени ожидания перед применением изменений, после достижения значения Больше.
-
Принудительное применение пакета при превышении объема памяти для обработки (МБ): максимальный объем памяти, который может использоваться для предварительной обработки. Значение по умолчанию — 500 МБ.
Для поддержки максимального размера пакетов задайте самый большой объем памяти, который можно выделить для задачи данных. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.
-
Одновременно применять пакетные изменения к нескольким таблицам: установите этот флажок, чтобы улучшить производительность при применении изменений из нескольких исходных таблиц.
-
Максимальное количество таблиц: максимальное количество таблиц для одновременного применения пакетных изменений. Значение по умолчанию ― 5.
Примечание к информацииЭтот параметр не поддерживается при использовании платформы данных Google BigQuery. -
-
Ограничьте количество изменений, применяемых в одном операторе обработки изменений: установите этот флажок, чтобы ограничить количество изменений, применяемых в одном операторе обработки изменений. Значение по умолчанию — 10 000.
Примечание к информацииЭтот параметр поддерживается только при использовании платформы данных Google BigQuery.
Параметры, применимые для всех целей, кроме Qlik Cloud:
-
Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.
Примечание к информацииИзменения будут применены к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает значение Максимальное время для сбора транзакций в пакет до применения (секунды), описанное ниже, — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время.
- Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.
Интервал
-
Считывание изменений кажд. (минуты)
Задайте интервал в минутах между сеансами чтения изменений в источнике. Допустимый диапазон от 1 до 1440.
Примечание к информацииЭтот параметр доступен, только когда:
- Использование Data Movement Gateway
- Промежуточное хранение данных из источников приложений SaaS
- Задача определена с использованием метода обновления Захват данных изменений (CDC)
Прочие настройки
- Размер кэша для операторов (количество операторов): максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
-
Выполнить операции DELETE и INSERT при обновлении столбца первичного ключа: этот параметр требует, чтобы в исходной базе данных было включено ведение полных дополнительных журналов.
Эволюция схемы
Выберите, как обрабатывать следующие типы изменений DDL в схеме. Когда изменены параметры эволюции схемы, необходимо подготовить задачу заново. В таблице ниже описано, какие действия доступны для поддерживаемых изменений DDL.
Изменение DDL | Применить к цели | Игнорировать | Приостановить таблицу | Остановить задачу |
---|---|---|---|---|
Добавление столбца | Да | Да | Да | Да |
Переименовать столбец | Нет | Нет | Да | Да |
Переименовать таблицу | Нет | Нет | Да | Да |
Изменить тип данных столбца | Нет | Да | Да | Да |
Создать таблицу
Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону. |
Да | Да | Нет | Нет |
Подстановка символов
Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.
-
Все символы должны быть указаны в виде кодовых точек Юникода.
- Подстановка символов также будет выполняться в управляющих таблицах.
-
Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.
-
Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.
-
Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.
- Подстановка символов не поддерживается для типов данных LOB.
Подстановка или удаление исходных символов
Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.
Параметр управления | Сделайте это |
---|---|
Определите действия подстановки. |
|
Изменение указанного исходного или целевого символа |
Нажмите кнопку в конце строки и выберите Изменить. |
Удаление записей из таблицы |
Нажмите кнопку в конце строки и выберите Удалить. |
Замена или удаление исходных символов, не поддерживаемых выбранным набором символов
Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.
Параметр управления | Сделайте это |
---|---|
Определите или измените действие подстановки. |
|
Отключите действие подстановки. |
Выберите пустую запись в раскрывающемся списке Набор символов. |
Дополнительные параметры
Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.
Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.
Планирование задач CDC при работе без Data Movement Gateway
Data Movement Gateway не поддерживается при использовании подписки Qlik Talend Cloud Starter и является необязательным компонентом в других уровнях подписки. При работе с Data Movement Gateway актуальность целевых данных обеспечивается путем настройки интервала в графике. График определяет частоту обновления целевых наборов данных в соответствии с изменениями исходных наборов данных. Тогда как график определяет частоту обновления, тип набора данных определяет метод обновления. Если исходные наборы данных поддерживают CDC (Захват изменений данных), только изменения в исходных данных будут реплицированы в соответствующие целевые таблицы. Если исходные наборы данных не поддерживают CDC (например, «Виды»), изменения будут применены путем перезагрузки всех исходных данных в соответствующие целевые таблицы. Если одни исходные наборы данных поддерживают CDC, а другие нет, будут созданы две подзадачи: одна для перезагрузки наборов данных, которые не поддерживают CDC, а другая для захвата изменений наборов данных, не поддерживающих CDC. В данном случае для обеспечения согласованности данных настоятельно рекомендуется настроить одинаковый график для обеих подзадач.
Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.
Чтобы изменить график, выполните следующие действия.
Откройте проект данных, а затем выполните одно из следующих действий:
- В виде задачи щелкните рядом с задачей данных и выберите Планирование.
- В виде конвейера щелкните рядом с задачей данных и выберите Планирование.
- Откройте задачу промежуточного хранения и нажмите кнопку Планирование на панели инструментов.
- Измените параметры планирования по необходимости, затем нажмите кнопку ОК.