Параметры задачи репликации данных
Можно настроить параметры для задачи репликации данных.
-
Откройте задачу репликации и щелкните Параметры на панели инструментов.
Откроется диалоговое окно Параметры: <Имя_задачи>. Доступные параметры описаны ниже.
Общие
На этой вкладке можно изменить режим репликации, параметры промежуточной обработки (когда доступны) и режим применения изменений к цели.
Режим репликации
Доступны следующие режимы репликации:
- Полная загрузка: данные из выбранных исходных таблиц загружаются на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но ее можно выполнить вручную при необходимости.
-
Применить изменения: целевые таблицы обновляются изменениями, вносимыми в исходные таблицы.
-
Сохранить изменения: изменения исходных таблиц сохраняются в таблицах изменений (по одной на каждую исходную таблицу).
Для получения дополнительной информации см. раздел Сохранить изменения.
При работе с Data Movement Gateway изменения захватываются из источника практически в режиме реального времени. При работе без Data Movement Gateway (например, при использовании подписки Qlik Talend Cloud Starter или при выборе Нет) изменения захватываются в соответствии с параметрами планировщика. Для получения дополнительной информации см. раздел Планирование задач при работе без Data Movement Gateway.
Если выбран вариант Сохранить изменения или Применить изменения и исходные данные содержат таблицы, которые не поддерживают CDC, или виды, будет создано два конвейера данных. Один конвейер предназначен для таблиц, поддерживающих CDC, а второй для всех остальных таблиц и видов, которые поддерживают только режим Полная загрузка.
Подключение к промежуточной области
При репликации в хранилища данных, перечисленные ниже, необходимо настроить промежуточную область. Перед перемещением данных в хранилище осуществляется их обработка и подготовка в промежуточной области.
Выберите существующую промежуточную область или нажмите Создать, чтобы определить новую промежуточную область, и следуйте инструкциям в разделе Подключение к облачному хранилищу.
Чтобы изменить параметры подключения, нажмите Изменить. Чтобы проверить подключение (рекомендуется), нажмите Проверка соединения.
Для получения дополнительной информации о том, какие промежуточные области поддерживаются для тех или иных хранилищ данных, см. столбец Поддерживается как промежуточная область в таблице Сценарии использования и поддерживаемые версии целевых платформ.
Режим применения изменений
Изменения применяются к целевым таблицам с использованием одного из следующих методов:
- Пакетная оптимизация: это значение по умолчанию. Когда установлен этот флажок, изменения применяются пакетами. Происходит предварительная обработка, чтобы сгруппировать транзакции в пакеты наиболее эффективным способом.
- Транзакционное: выберите этот параметр, чтобы применить каждую транзакцию отдельно, в том порядке, в котором она была совершена. В этом случае для всех таблиц обеспечивается строгая целостность данных.
Загрузка данных
Максимальный размер файла
Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.
Метаданные
Базовые
-
Схема целевой таблицы: схема в цели, в которую будут реплицированы исходные таблицы, если требуется не использовать схему исходной таблицы (или если в исходной базе данных отсутствует схема).
Примечание к информацииПри репликации в цель Oracle в качестве схемы целевой таблицы по умолчанию используется «система». Также обратите внимание, что если оставить это поле пустым (в таком случае будет использоваться исходная схема), необходимо убедиться, что исходная схема уже существует в цели. В противном случае задача завершится ошибкой.Примечание к информацииМаксимальная допустимая длина имени схемы составляет 128 символов.
Параметры LOB
Могут быть доступны разные параметры LOB в зависимости от выбранной цели репликации. Так как в хранилищах данных не поддерживаются неограниченные размеры столбцов LOB, этот параметр будет недоступен при репликации в хранилище данных.
Параметры LOB для целей, не являющихся хранилищем данных
- Не включать столбцы LOB: установите этот флажок, если не требуется реплицировать исходные столбцы LOB.
-
Ограничить размер столбца LOB до (КБ): это значение по умолчанию. Установите этот флажок, если требуется реплицировать только небольшие LOB или если целевая платформа не поддерживает неограниченный размер LOB. Максимальное допустимое значение для этого поля составляет 102 400 КБ (100 МБ).
При репликации малых LOB этот параметр обеспечивает более высокую производительность, чем параметр Не ограничивать размер столбцов LOB, так как LOB реплицируются во «встроенном» (inline) режиме в противоположность использованию поиска (lookup) из источника. Во время обработки изменений малые LOB обычно реплицируются методом поиска (lookup) из источника.
Ограничение применяется к количеству байт LOB, считываемых из конечной точки источника. Для столбцов BLOB целевой размер BLOB будет точно соответствовать указанному ограничению. Для столбцов CLOB и NCLOB размер целевого LOB может отличаться от указанного ограничения, если исходный и целевой LOB не имеют одинакового набора символов. В этом случае задача данных выполнит преобразование набора символов, что может привести к расхождению между размерами исходного и целевого LOB.
Так как значение параметра «Ограничить размер LOB до» указывается в байтах, размер необходимо вычислить по следующим формулам:
- BLOB: длина самого большого LOB.
- NCLOB: длина самого длинного объекта TEXT (ТЕКСТ) в символах, умноженная на два (так как каждый символ обрабатывается как двухбайтовый). Если данные включают 4-байтовые символы, необходимо умножить длину на четыре.
- CLOB: длина самого длинного объекта TEXT (ТЕКСТ) в символах (так как каждый символ обрабатывается как символ UTF8). Если данные включают 4-байтовые символы, необходимо умножить длину на два.
Примечание к информации- Любой LOB, размер которого больше заданного, будет усекаться.
- При обработке изменений из источника Oracle встроенные BLOB реплицируются во встроенном режиме.
- Изменение этого параметра затрагивает существующие таблицы только после перезагрузки.
-
Не ограничивать размер столбцов LOB: когда установлен этот флажок, столбцы LOB будут реплицироваться независимо от размера.
Примечание к информацииРепликация столбцов LOB может повлиять на производительность. Это особенно заметно в случае больших столбцов, при обработке которых задача репликации должна выполнить поиск из исходной таблицы для получения исходного значения LOB.-
Оптимизировать, если размер LOB меньше: Установите этот флажок, когда требуется реплицировать и малые и большие LOB, при этом большинство LOB имеют небольшой размер.
Примечание к информацииЭтот параметр поддерживается только для следующих источников и целей:
-
Источники: Oracle, Microsoft SQL Server, MySQL, PostgreSQL и IBM DB2 for LUW
-
Цели: Oracle, Microsoft SQL Server, MySQL, PostgreSQL.
Когда установлен этот флажок во время полной загрузки, малые LOB будут реплицироваться во встроенном режиме (обеспечивая более высокую эффективность), а большие LOB будут реплицироваться методом поиска из исходной таблицы. Однако при обработке изменений и малые, и большие LOB будут реплицироваться методом поиска из исходной таблице.
Примечание к информацииКогда этот флажок установлен, задача репликации будет проверять размеры всех LOB, чтобы определить, какие из них можно переносить во встроенном режиме. LOB, размер которых превышает заданное значение, будут реплицироваться в режиме полного LOB.
Поэтому если известно, что большинство LOB больше указанного размера, рекомендуется вместо этого использовать параметр Реплицировать столбцы LOB без ограничений .
-
-
Размер блока (КБ): на свое усмотрение можно изменить размер блоков LOB для использования репликации данных в цели. Размер блока по умолчанию будет достаточным в большинстве случаев, но если возникают проблемы с производительностью, их можно исправить, регулируя размер.
Примечание к информацииПри работе с некоторыми базами данных осуществляется проверка типа данных в процессе вставки или обновления данных. В таких случаях репликация структурированных типов данных (например, XML, JSON, GEOGRAPHY, и т. д.) может завершиться ошибкой, если их размер больше заданного размера блока.
-
Параметры LOB для поддерживаемых целевых хранилищ данных
-
Включить столбцы LOB и ограничить размер столбцов до (КБ):
По выбору можно включить столбцы LOB и задать максимальный размер LOB. Большие объекты, чей размер больше максимального, обрезаются.
Дополнительно
Параметры управляющей таблицы
-
Схема управляющих таблиц: задайте целевую схему для управляющих таблиц, если их нежелательно создавать в исходной схеме (по умолчанию) или в целевой схеме.
Примечание к информацииМаксимальная допустимая длина имени схемы составляет 128 символов. - Создать целевые управляющие таблицы в табличном пространстве: Когда в качестве цели репликации используется коннектор Oracle, укажите табличное пространство, в котором требуется создать целевые управляющие таблицы. Если оставить это поле пустым, таблицы будут создаваться в табличном пространстве по умолчанию в целевой базе данных.
- Создать индексы для целевых управляющих таблиц в табличном пространстве: Когда в качестве цели репликации используется коннектор Oracle, укажите табличное пространство, в котором требуется создать индексы управляющих таблиц. Если оставить это поле пустым, индексы будут создаваться в том же табличном пространстве, что и управляющие таблицы.
- Временной интервал истории репликации (в минутах): длительность каждого интервала времени в управляющей таблице История репликации. Значение по умолчанию — 5 минут.
Выбор управляющей таблицы
Выберите управляющие таблицы, которые требуется создать в целевой платформе:
Логическое имя | Имя в целевом объекте |
---|---|
Применять исключения | attrep_apply_exceptions |
Состояние репликации | attrep_status |
Приостановленные таблицы | attrep_suspended_tables |
История репликации | attrep_history |
История DDL |
attrep_ddl_history Примечание к информации
Таблица «История DDL» поддерживается только для следующих целевых платформ:
|
Для получения дополнительной информации об управляющих таблицах см. раздел Управляющие таблицы.
Полная загрузка
Базовые
Если целевая таблица уже существует: выберите одно из следующих действий в списке, чтобы определить порядок обработки загрузки таблицы при начале полной загрузки:
Вариант отбрасывания или усечения целевых таблиц применим, только если такие операции поддерживаются исходной конечной точкой.
-
Отбросить и создать таблицу: таблица отбрасывается, вместо нее создается новая.
Примечание к информацииУправляющие таблицы задачи репликации не будут отброшены. Однако отброшенные приостановленные таблицы также удаляются из управляющей таблицы attrep_suspended_tables в случае перезагрузки связанной таблицы.
-
УСЕЧЬ перед загрузкой: данные усекаются, метаданные таблицы не затрагиваются. Обратите внимание: когда установлен этот флажок, включение параметра Создать первичный ключ или уникальный индекс игнорируется.
Примечание к информацииНе поддерживается, когда целевой платформой является Microsoft Fabric. - Игнорировать: существующие данные и метаданные в целевой таблице не затрагиваются. Новые данные будут добавлены в таблицу.
Расширенные
Настройка производительности
Если репликация выполняется очень медленно, настройка следующих параметров может улучшить производительность.
- Максимальное количество таблиц: укажите максимальное количество таблиц, которое можно загружать в цель за один раз. Значение по умолчанию — 5.
-
Тайм-аут непротиворечивости транзакций (в секундах): введите количество секунд, в течение которого задача репликации должна ожидать закрытия открытых транзакций, прежде чем начинать операцию полной загрузки. Значение по умолчанию — 600 (10 минут). Задача репликации начнет полную загрузку по истечении времени тайм-аута, даже если остались открытые транзакции.
Примечание к информацииЧтобы реплицировать транзакции, открытые на момент начала полной загрузки, но зафиксированные только после истечения тайм-аута, необходимо перезагрузить целевые таблицы. - Скорость фиксации при полной загрузке: максимальное количество событий, передаваемых вместе. Значение по умолчанию — 10 000.
После завершения полной загрузки
Можно настроить автоматическую остановку задачи после завершения полной загрузки. Это полезно, если требуется выполнить операции DBA в целевых таблицах перед началом этапа «Применить изменения» (то есть CDC).
Во время полной загрузки все операции DML, выполненные в исходных таблицах, помещаются в кэш. Когда завершится полная загрузка, кэшированные изменения автоматически применяются к целевым таблицам (если отключены описанные ниже параметры До/после применения кэшированных изменений).
- Создать первичный ключ или уникальный индекс: установите этот параметр, если требуется отложить создание первичного ключа или уникального индекса в цели до окончания полной загрузки.
- Остановить задачу: Примечание к информации
Данные параметры недоступны в следующих случаях:
- при репликации из источников приложений SaaS (так как отсутствуют кэшированные события);
- при репликации в цели, которые являются хранилищами данных.
До применения кэшированных изменений: установите флажок, чтобы остановить задачу после завершения полной загрузки.
После применения кэшированных изменений: установите этот флажок, чтобы остановить задачу, когда данные всех таблиц в задаче будут согласованы.
Примечание к информацииКогда настраивается остановка задачи после завершения полной загрузки, обратите внимание на следующее:
- Задача не останавливается одновременно с завершением полной загрузки. Она будет остановлена только после захвата первого пакета изменений (так как именно это инициирует остановку задачи). На это может потребоваться какое-то время, в зависимости от частоты обновления исходной базы данных. После остановки задания изменения будут применены к цели только после возобновления задачи.
- Включение параметра После применения кэшированных изменений может повлиять на производительность, так как кэшированные изменения применяются к таблицам (даже те, для которых уже завершена полная загрузка) только после окончания полной загрузки последней таблицы.
- Когда установлен этот флажок и в одной из исходных таблиц в процессе полной загрузки выполняется операция DDL (в рамках задачи «Полная загрузка и применение изменений»), задача репликации перезагрузит таблицу. Фактически это означает, что операции DML, выполняемые в исходных таблицах, будут реплицированы в целевые таблицы до остановки задачи.
Для начальной загрузки
При перемещении данных из источника приложений SaaS можно настроить порядок выполнения начальной полной загрузки.
Использовать кэшированные данные |
Этот параметр позволяет использовать кэшированные данные, которые были прочитаны при создании метаданных с установленным флажком Полное сканирование данных. Это уменьшает накладные расходы, связанные с квотами и использованием API, поскольку данные уже считаны из источника. Все изменения, внесенные после начального сканирования данных, можно получить в режиме «Захват изменений данных (CDC)». |
Загрузить данные из источника |
Этот параметр выполняет новую загрузку из источника данных. Этот параметр полезен, если:
|
Применение изменений
Эти параметры доступны, только когда включен режим репликации Применить изменения.
Базовые
Применять изменения DDL к целевой таблице
Следующие параметры определяют, будут ли операции DDL, выполненные в соответствующей исходной таблице, также выполняться в целевой таблице.
- Отбросить таблицу: целевую таблицу можно отбросить, когда отброшена исходная таблица.
-
Усечь таблицу: целевую таблицу можно усечь, когда усечена исходная таблица.
Примечание к информацииНе поддерживается, когда целевой платформой является Microsoft Fabric. - Изменить таблицу: целевую таблицу можно изменить, когда изменена исходная таблица.
Настройка обработки изменений
-
Одновременно применять пакетные изменения к нескольким таблицам: Установите этот флажок, чтобы улучшить производительность при применении изменений из нескольких исходных таблиц.
Примечание к информацииЭтот параметр поддерживается, только когда:
- Для параметра Режим «Применить изменения» задано значение Пакетная оптимизация. Для получения дополнительной информации см. раздел Общие.
- Цели репликации не являются MySQL, PostgreSQL, Oracle и Google BigQuery.
-
Максимальное количество таблиц: максимальное количество таблиц для одновременного применения пакетных изменений. По умолчанию задано значение 50, минимальное значение — 2.
Когда включен параметр Одновременно применять пакетные изменения к нескольким таблицам, действуют следующие ограничения:
-
Параметры по умолчанию для политики обработки ошибок задачи остаются без изменений для ошибок типа Среда и Таблица, но значения по умолчанию для ошибок типа Данные и Конфликты применения будут следующие:
- Ошибки данных:
- Ошибки усечения данных: Вносить запись в таблицу исключений
- Другие ошибки данных: Приостановить таблицу
- Ошибки конфликтов применения:
- Удаления: Игнорировать запись
Вставки: ОБНОВИТЬ существующую целевую запись
Примечание к информацииЭто не относится к цели Snowflake (так как Snowflake не поддерживает первичные ключи).- Обновления: Игнорировать запись
- Действие при эскалации:
- параметр Действие при эскалации для ошибок Данные и для ошибок Конфликты применения не поддерживается.
- Управляющая таблица attrep_apply_exception не поддерживается.
- В случае ошибок данных:
- Параметр Вносить запись в таблицу исключений доступен только для ошибок усечения данных.
- Параметр Игнорировать отсутствует.
- Для конфликтов применения:
- параметр Вносить запись в таблицу исключений недоступен.
- Параметр Игнорировать доступен только для конфликта применения Не найдено записей для применения ОБНОВЛЕНИЯ.
- Ошибки данных:
См. также: Обработка ошибок.
-
Ограничьте количество изменений, применяемых в одном операторе обработки изменений: чтобы ограничить количество изменений, применяемых в одном операторе обработки изменений, установите этот флажок, а затем при необходимости измените значение по умолчанию. Значение по умолчанию — 10 000.
Примечание к информацииЭтот параметр поддерживается только при использовании следующих целей: MySQL, PostgreSQL, Oracle и Google BigQuery.
Дополнительно
См. Настройка обработки изменений.
Сохранить изменения
Эти параметры доступны, только когда включен режим репликации Сохранить изменения.
Базовые
Параметры DDL
Выберите один из следующих параметров, чтобы определить порядок обработки операций DDL в исходных таблицах:
- Применить к таблице изменений: операции DDL с исходными таблицами (такие как добавление столбца) будут применены только к соответствующим таблицам изменений.
- Игнорировать: все операции DDL с исходными таблицами будут игнорироваться.
Дополнительно
При обновлении
Установите флажок Сохранять предыдущий образ и последующий образ, чтобы сохранить данные до и после обновления. Когда флажок не установлен, сохраняются только данные после обновления.
Создание таблицы изменений
В следующем разделе описываются параметры, доступные при хранении изменений в таблицах изменений.
- Суффикс: укажите строку, которая будет использоваться в качестве суффикса для всех таблиц изменений. Значение по умолчанию ― __ct. Имена таблиц изменений образуются путем добавления суффикса к имени целевой таблицы. Так, например, при использовании суффикса по умолчанию имя таблицы изменений будет HR__ct.
- Префикс столбца заголовка: укажите строку, которая будет использоваться в качестве префикса для всех таблиц изменений. Значение по умолчанию ― header__. Например, при использовании значения по умолчанию столбец заголовка stream_position получит имя header__stream_position.
Для получения дополнительной информации о таблицах изменений см. раздел Использование таблиц изменений.
Если существует таблица изменений при запуске полной загрузки: выберите один из следующих вариантов, чтобы определить, как должны загружаться таблицы изменения при запуске репликации в режиме «Полная загрузка»:
- Удалить и создать таблицу изменений: таблица отбрасывается, вместо нее создается новая.
-
Удалять старые изменения и сохранять новые изменения в существующей таблице изменений: данные усекаются и добавляются, не затрагивая метаданные таблицы.
Примечание к информацииНе поддерживается, когда целевой платформой является Microsoft Fabric. - Оставлять старые изменения и сохранять новые изменения в существующей таблице изменений: данные и метаданные существующей таблицы изменений не затрагиваются.
Столбцы заголовка таблицы
Столбцы заголовка таблицы изменений предоставляют информацию об операциях обработки изменений, такую как тип операции (например, INSERT (ВСТАВИТЬ)), время фиксации и т. д. Если эта информация не нужна, можно настроить задачу перемещение так, чтобы создавать таблицы изменений с выбранным столбцами заголовков (или совсем без них), тем самым сокращая использование ресурсов целевой базы данных.
Описание столбцов заголовков см. в разделе Таблицы изменений.
Обработка ошибок
Базовые
Конфликты применения
Дублировать ключ при применении ВСТАВКИ: выберите, какое действие требуется предпринять, когда имеется конфликт с операцией INSERT (ВСТАВИТЬ).
-
Игнорировать: задача продолжается, ошибка игнорируется.
-
ОБНОВИТЬ существующую целевую запись: обновляется целевая запись с тем же первичным ключом, что у ВСТАВЛЕННОЙ исходной записи.
- Вносить запись в таблицу исключений (по умолчанию): задача продолжается, ошибка записывается в таблицу исключений.
-
Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Не найдено записей для применения ОБНОВЛЕНИЯ: выберите, какое действие требуется предпринять, когда имеется конфликт с операцией UPDATE (ОБНОВИТЬ).
- Игнорировать: задача продолжается, ошибка игнорируется.
-
ВСТАВИТЬ недостающую целевую запись: отсутствующая целевая запись вставляется в целевую таблицу. Когда исходной конечной точкой является Oracle, при выборе этого параметра должна быть включена дополнительная регистрация для всех столбцов исходной таблицы.
- Вносить запись в таблицу исключений (по умолчанию): задача продолжается, ошибка записывается в таблицу исключений.
-
Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Дополнительно
Обработка ошибок данных поддерживается только в режиме репликации «Применить изменения» (не «Полная загрузка»).
Ошибки данных
В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Вносить запись в таблицу исключений (по умолчанию): задача продолжается, ошибка записывается в таблицу исключений.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:
- Игнорировать: задача продолжается, ошибка игнорируется.
- Вносить запись в таблицу исключений (по умолчанию): задача продолжается, ошибка записывается в таблицу исключений.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.
-
Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (перенесено).
Примечание к информацииПоведение отличается в зависимости от режима обработки изменений:
-
В режиме Применение отдельных транзакций последние изменения не помещаются на промежуточное хранение (перенесено).
-
В режиме Пакетное оптимизированное применение возможна ситуация, при которой данные не будут помещаться на промежуточное хранение (перенесено) совсем или будут, но только частично (перенесено).
-
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
- Вносить запись в таблицу исключений: задача продолжается, запись записывается в таблицу исключений.
Ошибки таблицы
В случае ошибки таблицы; Выберите из списка одно из следующих действий:
- Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: для ошибок таблиц задается политика эскалации Остановить задачу, ее нельзя изменить.
Конфликты применения
Не найдено записей для применения операции DELETE: выберите, какое действие требуется предпринять, когда имеется конфликт с операцией DELETE (УДАЛИТЬ).
- Игнорировать: задача продолжается, ошибка игнорируется.
- Вносить запись в таблицу исключений: задача продолжается, ошибка записывается в таблицу исключений.
- Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
- Остановить задачу: задача останавливается, требуется вмешательство вручную.
Эскалировать обработку ошибок при достижении количества конфликтов применения (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество конфликтов применения (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.
Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок.
- Вносить запись в таблицу исключений (по умолчанию): задача продолжается, ошибка записывается в таблицу исключений.
-
Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
Примечание к информацииПоведение отличается в зависимости от режима обработки изменений:
-
В режиме Транзакционное применение последние изменения не реплицируются
-
В режиме применения Пакетная оптимизация возможна ситуация, когда репликация данных не выполняется или выполняется лишь частично.
-
-
Остановить задачу: задача останавливается, требуется вмешательство вручную.
Ошибки среды
-
Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.
Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».
Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»
-
Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.
Допустимые значения: 1-2000.
-
- Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
- Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.
Настройка обработки изменений
Настройка выгрузки транзакций
-
Выгрузка выполняемых транзакций на диск, если:
Задача репликации обычно сохраняет данные транзакции в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.
- Общий объем памяти для транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
- Длительность транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в задаче репликации. По умолчанию установлено значение 60.
Настройка пакета
Следующие параметры доступны, когда для параметра Режим применения задано значение Пакетная оптимизация.
- Применение пакетных изменений с интервалами:
-
Больше: минимальный интервал времени ожидания между применением пакетов изменений. Значение по умолчанию — 1.
При увеличении значения Дольше уменьшается частота, с которой применяются изменения к цели, и увеличивается размер пакетов. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.
- Меньше: максимальный интервал времени ожидания между применением пакетов изменений (после которого объявляется тайм-аут). Другими словами, максимально допустимая задержка. Значение по умолчанию — 30. Это значение определяет максимальный интервал времени ожидания перед применением изменений, после достижения значения Дольше.
-
Принудительное применение пакета при превышении объема памяти для обработки (МБ): максимальный объем памяти, который может использоваться для предварительной обработки в режиме применения Пакетная оптимизация. Значение по умолчанию — 500.
Для поддержки максимального размера пакетов задайте самый большой объем памяти, который можно выделить для задачи репликации. Это может улучшить производительность при применении изменений к целевым базам данных, которые оптимизированы для обработки больших пакетов.
Интервал
-
Считывание изменений кажд. (минуты)
Задайте интервал в минутах между сеансами чтения изменений в источнике. Допустимый диапазон от 1 до 1440.
Примечание к информацииЭтот параметр доступен, только когда:
- Использование Data Movement Gateway
- Промежуточное хранение данных из источников приложений SaaS
- Задача определена с использованием метода обновления Захват данных изменений (CDC)
Прочие настройки
Размер кэша для операторов (количество операторов)
максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
Сохранять данные для восстановления задачи в целевой базе данных
установите этот флажок, чтобы сохранять информацию для восстановления конкретной задачи в целевой базе данных. Когда установлен этот флажок, задача репликации создает таблицу под именем attrep_txn_state в целевой базе данных. Эта таблица содержит данные транзакции, которые могут использоваться для восстановления задачи в случае повреждения файлов в папке Data Movement Gateway Data или неисправности устройства хранения, где находится папка Data.
Применять изменения с помощью операции SQL MERGE
Когда этот флажок не установлен, задача репликации будет выполнять отдельные массовые операторы INSERT (ВСТАВИТЬ), UPDATE (ОБНОВИТЬ) и DELETE (УДАЛИТЬ) для каждого из различных типов изменений в таблице Net Changes (Чистые изменения).
При всей эффективности этого метода, активация параметра Применять изменения с помощью операции SQL MERGE еще больше повышает производительность при работе с конечными точками, которые поддерживают эту функцию.
Это происходит по следующим причинам:
- Количество операций SQL, выполняемых для каждой таблицы, сокращается с трех до одной. Большинство операций UPDATE в больших неизменяемых облачных базах данных на основе (таких как Google Cloud BigQuery) подразумевают перезапись затрагиваемых файлов. При выполнении таких операций сокращение количества операторов SQL на каждую таблицу с трех до одного имеет очень большое значение.
- Целевая база данных должна сканировать таблицу Net Changes всего один раз, что существенно сокращает объем ввода/вывода.
Оптимизация вставок
Когда флажок Применять изменения с помощью операции SQL MERGE установлен вместе с флажком Оптимизировать операции INSERT и изменения состоят только из вставок, задача репликации будет выполнять операции INSERT вместо SQL MERGE. Обратите внимание: притом что это, как правило, повышает производительность и тем самым снижает затраты, это также может привести к дублированию записей в целевой базе данных.
- Параметры Применять изменения с помощью операции SQL MERGE и Оптимизировать операции INSERT доступны только для задач, настроенных с использованием следующих целевых конечных точек:
- Google Cloud BigQuery
- Databricks
- Snowflake
- Параметры Применять изменения с помощью операции SQL MERGE и Оптимизировать операции INSERT не поддерживаются при использовании следующих целевых конечных точек:
- Salesforce
- Oracle
-
Когда установлен флажок Применять изменения с помощью операции SQL MERGE:
- Некритические ошибки данных или ошибки данных, которые нельзя восстановить, будут обрабатываться как ошибки таблицы.
- Политика обработки ошибок из-за конфликтов применения не подлежит изменению при использовании следующих параметров.
- Не найдено записей для применения операции DELETE: Игнорировать запись
Дублировать ключ при применении ВСТАВКИ: ОБНОВИТЬ существующую целевую запись
Примечание к информацииЕсли также установлен флажок Оптимизировать операции INSERT, параметру Дублировать ключ при применении операции INSERT будет задано значение Разрешить дубликаты в цели.- Не найдено записей для применения ОБНОВЛЕНИЯ: Выполнить операцию INSERT для недостающей целевой записи
- Действие при эскалации: Вносить запись в таблицу исключений
- Следующие параметры политики обработки ошибок данных типа В случае других ошибок данных: будут недоступны:
- Игнорировать запись
- Вносить запись в таблицу исключений
- Фактически операция SQL MERGE будет выполняться только в окончательных целевых таблицах. Операции INSERT будут выполняться в промежуточных таблицах изменений (когда включены режимы репликации Применить изменений или Сохранить изменения).
Применение отдельных транзакций
Следующие параметры доступны, только когда для параметра Режим применения задано значение Транзакционное.
-
Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.
Примечание к информацииЗадача репликации применяет изменения к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает тайм-аут пакета — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время. - Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.
Эволюция схемы
Выберите, как обрабатывать следующие типы изменений DDL в схеме. Когда изменены параметры эволюции схемы, необходимо подготовить задачу заново. В таблице ниже описано, какие действия доступны для поддерживаемых изменений DDL.
Изменение DDL | Применить к цели | Игнорировать | Приостановить таблицу | Остановить задачу |
---|---|---|---|---|
Добавление столбца | Да | Да | Да | Да |
Изменить тип данных столбца | Да | Да | Да | Да |
Переименовать столбец | Да | Нет | Да | Да |
Переименовать таблицу | Нет | Нет | Да | Да |
Отбросить столбец | Да | Да | Да | Да |
Отбросить таблицу | Да | Да | Да | Да |
Создать таблицу
Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону. |
Да | Да | Нет | Нет |
Подстановка символов
Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.
-
Все символы должны быть указаны в виде кодовых точек Юникода.
- Подстановка символов также будет выполняться в управляющих таблицах.
-
Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.
-
Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.
-
Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.
- Подстановка символов не поддерживается для типов данных LOB.
Подстановка или удаление исходных символов
Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.
Параметр управления | Сделайте это |
---|---|
Определите действия подстановки. |
|
Изменение указанного исходного или целевого символа |
Нажмите кнопку в конце строки и выберите Изменить. |
Удаление записей из таблицы |
Нажмите кнопку в конце строки и выберите Удалить. |
Замена или удаление исходных символов, не поддерживаемых выбранным набором символов
Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.
Параметр управления | Сделайте это |
---|---|
Определите или измените действие подстановки. |
|
Отключите действие подстановки. |
Выберите пустую запись в раскрывающемся списке Набор символов. |
Дополнительные параметры
Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.
Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.
Планирование задач при работе без Data Movement Gateway
Data Movement Gateway не поддерживается при использовании подписки Qlik Talend Cloud Starter и является необязательным компонентом в других уровнях подписки. При работе без Data Movement Gateway CDC (захват изменений данных) практически в реальном времени не поддерживается. Актуальность целевых данных обеспечивается путем настройки интервала в графике. График определяет частоту обновления целевых наборов данных в соответствии с изменениями исходных наборов данных. Тогда как график определяет частоту обновления, тип набора данных определяет метод обновления. Если исходные наборы данных поддерживают CDC, только изменения в исходных данных будут реплицированы в соответствующие целевые таблицы. Если исходные наборы данных не поддерживают CDC (например, «Виды»), изменения будут применены путем перезагрузки всех исходных данных в соответствующие целевые таблицы. Если одни исходные наборы данных поддерживают CDC, а другие нет, будут созданы две подзадачи (предположим, выбраны параметры репликации Применить изменения или Сохранить изменения): один для перезагрузки наборов данных, которые не поддерживают CDC, а другой для захвата изменений наборов данных, не поддерживающих CDC. В данном случае для обеспечения согласованности данных настоятельно рекомендуется настроить одинаковый график для обеих подзадач.
Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.
Чтобы изменить график, выполните следующие действия.
Откройте проект, а затем выполните одно из следующих действий:
- В виде задачи щелкните рядом с задачей репликации и выберите Планирование.
- В виде задачи щелкните рядом с задачей репликации и выберите Планирование.
- Откройте задачу репликации и нажмите кнопку Планирование на панели инструментов.
- Измените параметры планирования по необходимости, затем нажмите кнопку ОК.