Настройки промежуточного хранения в озере данных | Qlik Cloud Справка
Перейти к основному содержимому Перейти к дополнительному содержимому

Настройки промежуточного хранения в озере данных

Следующие настройки задачи промежуточного хранения в озере данных применяются к проектам Открытое озеро данных Qlik, использующим в качестве источника базу данных или SaaS.

Можно настроить параметры задачи промежуточного хранения данных в озере.

  • Откройте задачу промежуточного хранения и щелкните Параметры на панели инструментов.

Откроется диалоговое окно Параметры: <Имя_задачи>. Доступные параметры описаны ниже.

Общие

  • Метод обновления

    Задача промежуточного хранения всегда начинается с полной загрузки. После завершения полной загрузки можно поддерживать актуальность данных на промежуточном хранении одним из следующих способов.

    Примечание к информацииПосле завершения подготовки задачи данных промежуточного хранения способ обновления изменить невозможно.
    • Захват изменений данных (CDC)

      Актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват изменений данных). Не все источники данных поддерживают CDC. CDC не обрабатывает операции DDL, такие как переименование столбцов или изменение метаданных.

      Если данные также содержат виды или таблицы, которые не поддерживают CDC, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка в качестве метода обновления.

    • Перезагрузить

      Все данные на промежуточном хранении перезагружаются из источника. Это полезно, если источник не поддерживает CDC, но может использоваться в качестве поддерживаемого источника данных.

      Можно запланировать периодическое выполнение перезагрузок.

      Примечание к информацииЭтот параметр недоступен при использовании коннекторов для приложений SaaS, предоставляемых в режиме предварительного просмотра. Коннекторы Preview приложений SaaS обозначены кнопкой Изображение кнопки «Предварительный просмотр», как в диалоговом окне Создание подключения, так и в интерактивной справке.
  • Папка для использования

    Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточной области.

    • Папка по умолчанию

      Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.

    • Корневая папка

      Данные сохраняются в корневой папке хранилища.

    • Папка

      Укажите имя используемой папки.

  • Загрузка данных

    Атрибуты файлов

    Настройте параметры файлов для загрузки данных.

    • Разделитель полей

      Символ разделителя полей, используемый в файле исходных данных. Значение по умолчанию: «,».
    • Значение Null

      Необязательная строка по умолчанию для замены значений null в файле исходных данных.
    • Разделитель записей

      Символ разделителя записей, используемый в файле исходных данных. Значение по умолчанию: «\n».
    • Символ кавычки

      Символ кавычки, используемый в файле исходных данных. Значение по умолчанию: """.
    • Символ экранирования кавычек

      Символ экранирования кавычек, используемый в файле исходных данных. Значение по умолчанию: """.
    • Максимальный размер файла (КБ)

      Максимальный размер, по достижении которого файл закрывается. Для загрузки файлов меньшего размера может требоваться меньше времени (в зависимости от сети), благодаря чему повышается быстродействие при использовании вместе с параметром «Параллельное выполнение». Однако, как правило, не рекомендуется загромождать базу данных маленькими файлами.

    • Сжимать файлы с помощью

      Если этот параметр выбран, CSV-файлы будут сжаты с помощью GZIP.

      Примечание к информации
      • Требуется Шлюз движения данных версии 2023.5.16 или более поздней.

    Метаданные

    Столбцы LOB

    • Включить столбцы LOB и ограничить размер столбца до (КБ):

      Вы можете включить столбцы LOB в задачу и задать максимальный размер LOB. Столбцы LOB, размер которых превышает максимальный, будут усечены.

    Полная загрузка

    Примечание к информацииЭти параметры недоступны для задач, определенных с использованием коннекторов приложений SaaS, предоставляемых в режиме предварительного просмотра. Коннекторы, предоставляемые в режиме предварительного просмотра, обозначены кнопкой Изображение кнопки «Предварительный просмотр», как в диалоговом окне Создание подключения, так и в интерактивной справке.

    Настройка производительности

    • Максимальное количество параллельно загружаемых таблиц: Введите максимальное количество таблиц для одновременной загрузки в целевой объект. Значение по умолчанию: 5.
    • Время ожидания согласованности транзакций (в секундах): Введите количество секунд для ожидания закрытия открытых транзакций перед началом операции полной загрузки. Значение по умолчанию: 600 (10 минут). Полная загрузка начнется после истечения времени ожидания, даже если некоторые транзакции все еще открыты.

      Примечание к информацииЧтобы реплицировать транзакции, которые были открыты на момент начала полной загрузки, но были зафиксированы только после истечения времени ожидания, необходимо перезагрузить целевые таблицы.
    • Частота фиксации во время полной загрузки: Максимальное количество событий, которые могут быть переданы вместе. Значение по умолчанию: 10000.

    После завершения полной загрузки

    Создать первичный ключ или уникальный индекс: Выберите этот параметр, если хотите отложить создание первичного ключа или уникального индекса на платформе данных до завершения полной загрузки.

    Обработка ошибок

    Примечание к информации

    Обработка ошибок данных поддерживается только при использовании метода обновления «Захват изменений данных» (CDC).

    В случае ошибок усечения данных: выберите, что должно произойти в случае усечения одной или нескольких конкретных записей. Можно выбрать из списка одно из следующих действий:

    • Игнорировать: задача продолжается, ошибка игнорируется.
    • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
    • Остановить задачу: задача останавливается, требуется вмешательство вручную.

    В случае других ошибок данных: выберите, что должно произойти в случае ошибки в одной или нескольких конкретных записях. Можно выбрать из списка одно из следующих действий:

    • Игнорировать: задача продолжается, ошибка игнорируется.
    • Приостановить таблицу: задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются.
    • Остановить задачу: задача останавливается, требуется вмешательство вручную.

    Эскалировать обработку при достижении количества других ошибок данных (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок данных, не связанных с усечением, (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

    Действие при эскалации: выберите, что должно произойти в случае эскалации обработки ошибок. Обратите внимание, что доступные действия зависят от действия, выбранного в раскрывающемся списке Для других ошибок данных, описанном выше.

    • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не помещаются на промежуточное хранение (landed).

    • Остановить задачу: задача останавливается, требуется вмешательство вручную.

    Ошибки таблиц

    Эта опция позволяет контролировать, когда будет активирована политика обработки ошибок таблицы. По умолчанию, после обнаружения ошибки таблицы, таблица будет приостановлена или задача будет остановлена (в соответствии с выбранным действием) после трех повторных попыток. Иногда ошибка таблицы будет возникать из-за планового обслуживания приложения SaaS. В этих случаях количества повторных попыток по умолчанию может быть недостаточно для завершения обслуживания до активации политики обработки ошибок таблицы. Это также зависит от интервала планирования задачи, поскольку повторная попытка будет выполняться каждый раз, когда задача запускается. Так, например, если вы запланируете выполнение задачи каждый час, и приложение SaaS будет отключено для обслуживания как только задача начнет выполняться, три повторные попытки по умолчанию позволят приложению SaaS оставаться в автономном режиме до трех часов без активации политики обработки ошибок таблицы. Более длительное окно обслуживания потребует от вас увеличения количества повторных попыток (или изменения расписания), чтобы предотвратить активацию политики обработки ошибок таблицы.

    Подводя итог, если вы знаете, что ваше приложение SaaS проходит периодическое обслуживание, лучшей практикой является увеличение количества повторных попыток в соответствии с расписанием, чтобы обслуживание могло быть завершено без активации политики обработки ошибок таблицы.

    Примечание к информации
    • Эта опция будет отображаться только для задач, настроенных с коннектором приложения SaaS Lite или Standard.

    • Если используется Шлюз движения данных: требуется версия 2024.11.70 или выше.

    При возникновении ошибки таблицы: Выберите из списка одно из следующих действий:

    • Приостановить таблицу (по умолчанию): задача продолжается, но данные из таблицы с записью, которая вызвала ошибку, переводятся в состояние ошибки и не реплицируются
    • Остановить задачу: задача останавливается, требуется вмешательство вручную.

    Эскалировать обработку ошибок при достижении количества ошибок таблиц (для каждой таблицы): установите этот флажок, чтобы эскалировать обработку ошибок, когда количество ошибок таблиц (в одной таблице) достигает заданного значения. Допустимые значения: 1-10 000.

    Действие эскалации: для ошибок таблиц задается политика эскалации Остановить задачу , ее нельзя изменить.

    Ошибки среды

    • Максимальное количество повторных попыток: установите этот флажок, а затем укажите максимальное количество повторных попыток выполнить задачу в случае возникновения исправимых ошибок среды. После того как будет предпринято указанное количество повторных попыток выполнения, задача останавливается, что требует вмешательства вручную.

      Чтобы никогда не предпринимать повторных попыток, снимите флажок или задайте значение «0».

      Чтобы предпринимать неограниченное количество повторных попыток, задайте значение «-1»

      • Интервал между повторными попытками (секунды): используйте счетчик для выбора или ввода количества секунд ожидания перед повторной попыткой выполнения задачи.

        Допустимые значения: 1-2000.

    • Увеличивать интервал повтора при длительных перерывах в работе: установите этот флажок, чтобы увеличить время перед повтором при длительных перерывах в работе. Когда этот параметр включен, удваивается интервал ожидания перед каждой следующей попыткой повтора, пока не будет достигнуто значение Максимальный интервал повтора (и продолжает повторять попытки через указанный максимальный интервал).
      • Максимальный интервал повтора (секунды): используйте счетчик для выбора или ввода количества секунд ожидания между повторными попытками выполнения задачи, когда установлен флажок Увеличивать интервал повтора при длительных перерывах в работе. Допустимые значения: 1-2000.

    Настройка обработки изменений

    Примечание к информацииЭта вкладка доступна только в том случае, если выбран метод обновления «Захват изменений данных» (CDC).

    Настройка выгрузки транзакций

    Выгрузить выполняемые транзакции на диск в следующих случаях:

    Данные транзакции обычно сохраняются в памяти до их полной фиксации в источнике или цели. Однако транзакции, размер которых превышает выделенную память или которые не фиксируются в течение заданного периода времени, выгружаются на диск.

    • Общий объем памяти для всех транзакций превышает (МБ): максимальный размер, который могут занимать все транзакции в памяти и по достижении которого они выгружаются на диск. По умолчанию установлено значение 1024.
    • Длительность транзакции превышает (секунды): максимальное время, в течение которого каждая транзакция может оставаться в памяти, по истечении которого она выгружается на диск. Продолжительность отсчитывается от времени начала захвата транзакции в Qlik Talend Data Integration. По умолчанию установлено значение 60.

    Настройка пакетов

    • Минимальное количество изменений для каждой транзакции: минимальное количество изменений, которое должна содержать каждая транзакция. Значение по умолчанию — 1000.

      Примечание к информации

      Изменения будут применены к цели, когда количество изменений больше или равно значению параметра Минимальное количество изменений для каждой транзакции ИЛИ когда наступает значение Максимальное время для сбора транзакций в пакет до применения (секунды), описанное ниже, — в зависимости от того, что случится раньше. Так как частота применения изменений к цели регулируется этими двумя параметрами, изменения исходных записей могут быть отражены в целевых записях спустя некоторое время.

    • Максимальное время для сбора транзакций в пакет до применения (секунды): максимальное время сбора транзакций в пакеты, по истечении которого объявляется тайм-аут. Значение по умолчанию — 1.

    Другие настройки

    • Размер кэша для операторов (количество операторов): максимальное количество подготовленных операторов, которые хранятся на сервере для последующего использования (при применении изменений к цели). Значение по умолчанию — 50. Максимальное значение — 200.
    • Выполнить операции DELETE и INSERT при обновлении столбца первичного ключа: этот параметр требует, чтобы в исходной базе данных было включено ведение полных дополнительных журналов.

    Эволюция схемы

    Выберите способ обработки следующих типов изменений DDL в схеме. После изменения настроек эволюции схемы необходимо подготовить задачу заново. В таблице ниже описано, какие действия доступны для поддерживаемых изменений DDL.

    Примечание к информацииЕсли задача настроена с использованием предварительной версии коннектора SaaS-приложения, поддерживается только изменение DDL Изменить тип данных столбца. Чтобы узнать, находится ли ваш коннектор в режиме предварительной версии, см. справку по коннектору.
    Изменение DDLПрименить к целевому объектуИгнорироватьПриостановить таблицуОстановить задачу
    Добавить столбецДаДаДаДа
    Переименовать столбецНетНетДаДа
    Переименовать таблицуНетНетДаДа
    Изменить тип данных столбцаНетДаДаДа
    Создать таблицу

    Если вы использовали Правило выбора для добавления наборов данных, соответствующих шаблону, новые таблицы, соответствующие этому шаблону, будут обнаружены и добавлены.

    ДаДаНетНет

    Замена символов

    Можно заменять или удалять исходные символы в целевой базе данных и (или) исходные символы, не поддерживаемые выбранным набором символов.

    Примечание к информации
    • Все символы должны быть указаны в виде кодовых точек Юникода.

    • Подстановка символов также будет выполняться в управляющих таблицах.
    • Недопустимые значения отмечаются красным треугольником в верхнем правом углу ячейки таблицы. При наведении указателя мыши на треугольник отображается сообщение об ошибке.

    • Любые преобразования на уровне таблицы и глобальные преобразования, определенные для таблицы, будут выполняться после завершения подстановки символов.

    • Действия подстановки, определенные в таблице Подставлять или удалять исходные символы, выполняются до определения действия подстановки в таблице Неподдерживаемые исходные символы по набору символов.

    • Подстановка символов не поддерживается для типов данных LOB.

    Подстановка или удаление исходных символов

    Используйте таблицу Подставлять или удалять исходные символы, чтобы определить замены для конкретных исходных символов. Это может быть полезно, например, когда представление символа в Юникоде отличается на исходной и целевой платформах. Например, на платформе Linux символ «минус» в наборе символов Shift_JIS представлен как U+2212, а в ОС Windows как U+FF0D.

    Действия подстановки
    Параметр управленияСделайте это

    Определите действия подстановки.

    1. Нажмите кнопку Добавить символ над таблицей.

    2. Заполните поля Исходный символ и Целевой символ.

      Например, чтобы заменить букву «a» букву «e», укажите 0061 и 0065 соответственно.

      Примечание к информации

      Чтобы удалить указанный исходный символ, введите 0 в столбце Подставить символ.

    3. Повторите действия 1-2, чтобы заменить или удалить другие символы.

    Изменение указанного исходного или целевого символа

    Нажмите кнопку в конце строки и выберите Изменить.

    Удаление записей из таблицы

    Нажмите кнопку в конце строки и выберите Удалить.

    Замена или удаление исходных символов, не поддерживаемых выбранным набором символов

    Используйте таблицу Неподдерживаемые исходные символы по набору символов, чтобы определить один символ подстановки для всех символов, не поддерживаемых выбранным набором символов.

    Действия по замене неподдерживаемых символов
    Параметр управленияСделайте это

    Определите или измените действие подстановки.

    1. В таблице выберите набор символов в раскрывающемся списке Набор символов.

      Любые символы, не поддерживаемые выбранным набором символов, будут заменены в цели символом, указанным в шаге 2 ниже.

    2. Щелкните в столбце Подставить символ и укажите символ замены. Например, чтобы заменить все неподдерживаемые символы буквой «a», введите 0061.

      Примечание к информации

      Чтобы удалить все неподдерживаемые символы, введите 0.

    Отключите действие подстановки.

    Выберите пустую запись в раскрывающемся списке Набор символов.

    Дополнительные параметры

    Эти параметры не раскрываются в пользовательском интерфейсе, так как они применяются только в определенных версиях или средах. Поэтому не следует устанавливать их, если на это нет соответствующих указаний службы поддержки Qlik или в документации по продукту.

    Чтобы задать параметр, просто скопируйте его в поле Добавить имя признака и нажмите кнопку Добавить. Затем задайте значение или включите параметр в соответствии с полученными инструкциями.

    Параллельная загрузка сегментов набора данных

    Примечание к информацииЭтот параметр недоступен для источников SaaS-приложений и доступен только для определенного подмножества исходных и целевых баз данных.

    Во время полной загрузки можно ускорить загрузку больших наборов данных, разделив набор данных на сегменты, которые будут загружаться параллельно. Таблицы можно разделять по диапазонам данных, всем секциям, всем субсекциям или конкретным секциям.

    Для получения дополнительной информации см. Параллельная выгрузка в промежуточное хранение сегментов набора данных

    Планирование задач CDC при работе без Шлюз движения данных

    Примечание к информацииДля использования Планировщика требуется роль Может управлять или Может редактировать.

    Шлюз движения данных не поддерживается в подписке Qlik Talend Cloud Starter и является необязательным для других уровней подписки. При работе без Шлюз движения данных вы поддерживаете целевые данные в актуальном состоянии, задавая интервал планирования. Расписание определяет, как часто целевые наборы данных будут обновляться изменениями из исходных наборов данных. В то время как расписание определяет частоту обновления, тип набора данных определяет метод обновления. Если исходные наборы данных поддерживают CDC (захват изменений данных), будут реплицироваться и применяться к соответствующим целевым таблицам только изменения в исходных данных. Если исходные наборы данных не поддерживают CDC (например, представления), изменения будут применяться путем повторной загрузки всех исходных данных в соответствующие целевые таблицы. Если некоторые из исходных наборов данных поддерживают CDC, а некоторые нет, будут созданы две отдельные подзадачи: одна для повторной загрузки наборов данных, не поддерживающих CDC, а другая для захвата изменений в наборах данных, поддерживающих CDC. В этом случае для обеспечения согласованности данных настоятельно рекомендуется установить одинаковое расписание для обеих подзадач.

    Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.

    Чтобы изменить расписание:

    1. Откройте проект конвейера и выполните одно из следующих действий:

      • В представлении задач нажмите Кнопка меню, состоящая из 3 горизонтальных точек. на задаче данных и выберите Планирование.
      • В представлении конвейера нажмите Кнопка меню, состоящая из 3 вертикальных точек. на задаче данных и выберите Планирование.
      • Откройте задачу промежуточного хранения и нажмите кнопку панели инструментов Планирование.
    2. Измените настройки расписания по мере необходимости и нажмите ОК.

    Помогла ли вам эта страница?

    Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!