Перейти к основному содержимому Перейти к дополнительному содержимому

Хранение наборов данных

В проекте Открытое озеро данных Qlik задача хранения записывает данные промежуточного хранения в таблицы Iceberg, что позволяет увеличить эффективность хранения и выполнения запросов. Задача хранения данных расходует данные, выгруженные в область промежуточного хранения облака задачей промежуточного хранения. Эти таблицы можно использовать, например, в аналитическом приложении.

Следующие настройки и действия относятся к задаче хранения в проекте Открытое озеро данных Qlik, записывающей данные в таблицы Iceberg.

  • Задача сохранения данных выполняется непрерывно и не может быть добавлена в расписание.

  • Qlik автоматически оптимизирует данные, хранящиеся в таблицах Iceberg. Для получения дополнительной информации о процессе оптимизации см. раздел Архитектура Открытое озеро данных Qlik .

  • Задачу хранения данных можно разработать, если состояние задачи промежуточного хранения данных не ниже, чем Готово к подготовке.

  • Задачу хранения данных можно подготовить, если состояние задачи промежуточного хранения данных не ниже, чем Готово к выполнению.

Задача хранения данных будет использовать тот же режим (Полная загрузка или Полная загрузка и CDC), что и задача промежуточного хранения данных. Эти режимы отличаются свойствами конфигурации и параметрами мониторинга и управления. Если задача промежуточного хранения с целью в облаке имеет режим «Полная загрузка», задача хранения будет создавать представления на таблицы промежуточного хранения, а не физические таблицы.

Примечание к информацииЗадачи данных выполняются в контексте владельца проекта, к которому они относятся. Для получения дополнительной информации о необходимых ролях и разрешениях см. раздел Роли и разрешения в пространстве данных..

Создание задачи хранения данных

Задачу хранения данных можно создать тремя способами:

  • Щелкните ... рядом с задачей промежуточного хранения данных и выберите Хранить данные, чтобы создать задачу хранения данных на основе ресурса данных промежуточного хранения.

  • В проекте щелкните Создать, затем Сохранить данные. В этом случае нужно указать, какую задачу промежуточного хранения данных требуется использовать.

  • Задача хранения данных создается при подключении данных. Она подключается к задаче промежуточного хранения данных, также создаваемой во время подключения данных.

    Для получения дополнительной информации см. раздел Подключение данных к Открытое озеро данных Qlik.

Если создана задача хранения данных:

  1. Откройте задачу хранения данных, нажав ... и выбрав Открыть.
    Откроется задача хранения данных; можно проверить полученные наборы данных, составленные на основе таблиц из ресурса данных промежуточного хранения.

  2. Убедитесь, что в добавленных наборах данных сделаны необходимые изменения, такие как преобразования, фильтры и добавление столбцов.

    Для получения дополнительной информации см. раздел Управление наборами данных.

  3. При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.

    Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.

  4. Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Эта операция может занять некоторое время.

    Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.

  5. Задача данных готова к запуску, если имеет состояние Готово к выполнению.

    Нажмите Запустить.

    Теперь задача данных начнет создавать наборы данных, предназначенные для хранения данных.

Сохранение исторических данных

Чтобы легко воссоздавать данные в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные (данные типа 2) об изменениях. В этом случае будет создано хранилище всех исторических данных (HDS, historical data store).

  • Поддерживаются медленно изменяющиеся измерения типа 2.

  • При слиянии измененных записей создается новая запись для хранения измененных данных, а старая запись не меняется.

  • Новым записям HDS автоматически присваиваются метки времени, что позволяет строить анализ трендов и другие аналитические киоски данных, позволяющие отслеживать изменения по времени.

Чтобы включить исторические данные, нажмите:

  • Репликация с текущими данными и историей предыдущих данных в окне Настройки при подключении данных

  • Хранить исторические записи и архив записей об изменениях в диалоговом окне Настройки при создании задачи хранения

Планирование задачи хранения

Задача хранения в проекте Открытое озеро данных Qlik выполняется непрерывно мини-пакетами длительностью в 1 минуту, поэтому ее нельзя добавить в расписание.

Мониторинг задачи хранения

Для проверки состояния и хода выполнения задачи хранения нажмите Мониторинг.

Для получения дополнительной информации см. раздел Мониторинг Открытое озеро данных Qlik задачи хранения.

Устранение неполадок с задачами хранения данных

Когда возникают проблемы с одной или несколькими таблицами в задаче хранения данных, может потребоваться перезагрузить или воссоздать данные. Это можно сделать несколькими способами. Рассматривайте варианты в следующем порядке:

  1. Можно перезагрузить набор данных в месте промежуточного хранения. Перезагрузка набора данных в месте промежуточного хранения запустит процесс сравнения в хранилище и исправит данные, сохранив историю типа 2. Этот вариант также следует рассматривать, когда:

    • Полная загрузка была выполнена очень давно, и имеется большое количество изменений.

    • Если обработанные записи полной загрузки и таблицы изменений были удалены в результате обслуживания области промежуточного хранения.

    Промежуточное хранение данных, полученных из источников данных

  2. Можно воссоздать таблицы. Воссоздание наборов данных из источника.

    • Щелкните ..., а затем Воссоздать таблицы. При воссоздании таблицы нижестоящая задача будет реагировать, как в случае усечения и перезагрузки исходных наборов данных.

      Примечание к информацииЕсли возникли проблемы с отдельными таблицами, рекомендуется сначала попробовать перезагрузить таблицы, а не создавать их заново. Воссоздание таблиц может привести к потере исторических данных. При наличии существенных изменений необходимо также подготовить нижестоящие задачи данных, потребляющие воссозданные задачи данных, для перезагрузки данных.

Эволюция схемы

Эволюция схем позволяет легко обнаружить структурные изменения в нескольких источниках данных, а затем контролировать применение этих изменений к задаче. Эволюцию схемы можно использовать для обнаружения изменений DDL, которые были внесены в исходную схему данных. Также можно применить некоторые изменения автоматически.

Примечание к информацииЭволюция схем недоступна для задач, определенных с использованием коннекторов Lite для приложений SaaS или при использовании подписки Qlik Talend Cloud Starter. Эти параметры частично доступны для задач, определенных с использованием коннекторов приложений SaaS, предоставляемых в режиме предварительного просмотра.

Для каждого типа изменения можно выбрать способ обработки изменений в разделе Эволюции схемы в настройках задачи. Можно применить изменение, проигнорировать его, приостановить работу таблицы или остановить обработку задачи.

Можно задать, какое действие будет использоваться для обработки изменений DDL для каждого типа изменений. Некоторые действия доступны не для всех типов изменений.

  • Применить к цели

    Изменения применяются автоматически.

  • Игнорировать

    Изменения игнорируются.

  • Приостановить таблицу

    Таблица приостанавливается. Для таблицы будет отображаться ошибка в разделе Мониторинг.

  • Остановить задачу

    Обработка задачи останавливается. Это удобно, если требуется обрабатывать все изменения схемы вручную. Это также остановит составление графика, то есть запланированные запуски не будут выполняться.

Поддерживаются следующие изменения:

  • Добавить столбец

  • Создать таблицу, соответствующую шаблону выборки

    Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону.

Для получения дополнительной информации о параметрах задачи см. раздел Эволюция схемы

Примечание к информацииЕсли в эволюцию схемы внесены изменения, которые не были автоматически применены к хранилищу, необходимо проверить и подготовить задачу хранения.

Ограничения для эволюции схемы

При эволюции схемы действуют следующие ограничения.

  • Эволюция схемы поддерживается только при использовании CDC в качестве метода обновления.

  • Если параметры эволюции схемы изменены, необходимо подготовить задачу заново.

  • Если выполняется переименование таблиц, эволюция схемы не поддерживается. В этом случае необходимо обновить метаданные перед подготовкой задачи.

  • В процессе разработки задачи необходимо обновить браузер, чтобы получить изменения эволюции схемы. Можно настроить уведомления, чтобы получать оповещения об изменениях.

  • В задачах промежуточного хранения отбрасывание столбцов не поддерживается. Отбрасывание и добавление столбца приведет к ошибке таблицы.

  • В задачах промежуточного хранения операция DROP TABLE (ОТБРОСИТЬ ТАБЛИЦУ) не приведет к отбрасыванию таблицы. Удаление таблицы и последующее добавление таблицы приводит лишь к тому, что старая таблица усекается, а новая таблица не добавляется.

  • Изменение длины столбца возможно не для всех целей в зависимости от поддержки в целевой базе данных.

  • Если имя столбца изменено, явные преобразования, определенные с помощью этого столбца, не будут выполняться, так как они основаны на имени столбца.

  • Ограничения, действующие при обновлении метаданных, также распространяются и на эволюцию схем.

При захвате изменений DDL действуют следующие ограничения:

  • Когда в исходной базе данных происходит быстрая последовательность операций (например, DDL>DML>DDL), Qlik Talend Data Integration может разобрать журнал в неправильном порядке, что приведет к отсутствию данных или непредсказуемому поведению. Чтобы свести к минимуму такую вероятность, лучше всего подождать, пока изменения будут применены к цели, и только после этого выполнять следующую операцию.

    Например, если исходная таблица переименовывается несколько раз подряд в течение короткого интервала времени (и вторая операция переименования возвращает ей исходное имя), во время захвата изменений может появиться сообщение об ошибке, что таблица уже существует в целевой базе данных.

  • Если выполняется переименование таблицы, используемой в задаче, а затем эта задача останавливается, Qlik Talend Data Integration не захватит изменения, внесенные в эту таблицу после возобновления задачи.
  • Переименование исходной таблицы, пока задача остановлена, не поддерживается.

  • Перераспределение столбцов первичного ключа таблицы не поддерживается (и поэтому не записывается в управляющую таблицу DDL History).
  • Если тип данных столбца изменен, а затем выполняется переименование этого же столбца, пока задание остановлено, изменение DDL отражается в управляющей таблице DDL History как Drop Column (Отбросить столбец), а затем Add Column (Добавить столбец), когда задача возобновляется. Обратите внимание, что такое же поведение может наблюдаться и в результате длительной задержки.
  • Операции CREATE TABLE (СОЗДАТЬ ТАБЛИЦУ), выполненные в источнике, пока задача остановлена, будут применены к цели при возобновлении задачи, но не будут записаны как DDL в управляющей таблице DDL History.
  • Операции, связанные с изменением метаданных (такие как ALTER TABLE (ИЗМЕНИТЬ ТАБЛИЦУ), реорганизация, перестройка кластеризованного индекса и т. д.), могут вызывать непредсказуемое поведение, если они были выполнены:

    • Во время полной загрузки

      -ИЛИ-

    • Между меткой времени Начать обработку изменений с и текущим временем (т. е. моментом, когда пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска).

      Пример:

      ЕСЛИ:

      Указанное время Начать обработку изменений с ― 10:00.

      И:

      Столбец с именем Age (Возраст) добавляется в таблицу Employees (Сотрудники) в 10:10 утра.

      И:

      Пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска в 10:15 утра.

      ТО:

      Изменения, которые произошли между 10:00 и 10:10, могут привести к ошибкам CDC.

    Примечание к информации

    В любом из вышеперечисленных случаев необходимо перезагрузить затронутые таблицы, чтобы данные были правильно перенесены (перенесено) в цель.

  • Оператор DDL ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> не реплицирует значение по умолчанию в цель, и новый/измененный столбец получает значение NULL. Обратите внимание, что это может произойти, даже если DDL, добавивший/изменивший столбец, был выполнен в прошлом. Если новый/измененный столбец допускает нулевые значения, конечная точка источника обновляет все строки таблицы, прежде чем регистрировать сам DDL. В результате Qlik Talend Data Integration захватывает изменения, но не обновляет цель. Поскольку новый/измененный столбец получает значение NULL, то если целевая таблица не имеет столбца первичного ключа/уникального индекса, при последующих обновлениях будет появляться сообщение «Затронуто строк: 0».
  • Изменения в столбцах с точными данными TIMESTAMP (МЕТКА ВРЕМЕНИ) и DATE (ДАТА) не будут захватываться.

Настройки хранилища

Можно задать свойства для задачи хранения данных, когда в качестве платформы данных используется Открытое озеро данных Qlik.

  • Нажмите Настройки.

Общие настройки

  • База данных

    База данных, которая будет использоваться в источнике данных.

  • Схема задачи

    Можно изменить имя схемы задачи хранения данных. Имя по умолчанию – имя задачи хранения.

  • Внутренняя схема

    Вы можете изменить имя схемы ресурса внутреннего хранилища. Имя по умолчанию – имя задачи хранения, к которому добавлена строка _internal.

  • Написание имени схемы в верхнем или нижнем регистре по умолчанию

    Можно настроить использование заглавных букв по умолчанию для всех имен схем. Если база данных настроена на принудительное использование заглавных букв, этот параметр будет игнорироваться.

  • Префикс для всех таблиц и видов

    Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.

    Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных.
  • История

    Чтобы упростить воссоздание данных в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные об изменениях. Используйте виды истории и виды истории в реальном времени, чтобы просматривать исторические данные. Выберите Ведение исторических записей и изменение архива записей, чтобы активировать исторические данные об изменениях.

  • При сравнении хранилища с промежуточным хранением необходимо выбрать, как обращаться с записями, которые отсутствуют в промежуточном хранении.

    • Пометить как удаленный

      Записи, которые отсутствуют в промежуточном хранении, удаляются обратимым образом.

    • Сохранить

      Все записи, отсутствующие в промежуточном хранении, сохраняются.

    Примечание к информацииНаборы данных в задаче хранения данных должны иметь набор первичных ключей. В противном случае задача хранения каждый раз будет выполнять первичную загрузку данных промежуточного хранения.

Настройки времени выполнения

  • Параллельное выполнение

    Позволяет задать максимальное число подключений для полной загрузки (число от 1 до 5).

  • Хранилище

    Имя облачного хранилища данных. Параметр применим только для Snowflake.

Параметры каталога

  • Опубликовать в каталоге

    Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.

Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.

Эволюция схемы

Выберите, как обрабатывать следующие типы изменений DDL в схеме. Когда изменены параметры эволюции схемы, необходимо подготовить задачу заново. В таблице ниже описано, какие действия доступны для поддерживаемых изменений DDL.

Изменение DDL Применить к цели Игнорировать Остановить задачу
Добавление столбца Да Да Да
Создать таблицу

Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону.

Да Да Да

Операции с задачей хранения данных

С задачей хранения данных можно выполнять следующие операции в меню задачи.

  • Открыть

    Это открывает задачу хранения данных. Можно просмотреть структуру таблиц и сведения о задаче данных, а также отслеживать состояние для полной загрузки и пакетов изменений.

  • Изменить

    Можно изменить имя и описание задачи, а также добавить теги.

  • Удалить

    Можно удалить задачу данных.

  • Подготовить

    Эта операция позволяет подготовить задачу к выполнению. Это включает:

    • проверку допустимости дизайна,

    • создание или изменение физических таблиц и видов в соответствии с дизайном,

    • создание кода SQL для задачи данных,

    • создание или изменение записей каталога для выходных наборов данных задачи.

    Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.

  • Примечание к информацииПрежде чем приступать к подготовке задачи, остановите все задачи, которые в данный момент следуют за ней.
  • Проверить наборы данных

    Проверяются все наборы данных, содержащиеся в задаче данных.

    Разверните раздел Проверить и исправить, чтобы просмотреть все ошибки проверки и изменения дизайна.

  • Воссоздание таблиц

    Воссоздание наборов данных из источника. При воссоздании таблицы нижестоящая задача будет реагировать, как в случае усечения и перезагрузки исходных наборов данных. Для получения дополнительной информации см. раздел Устранение неполадок с задачами хранения данных.

  • Остановить

    Можно остановить выполнение задачи данных. Задача данных перестанет обновлять таблицы.

    Примечание к информацииЭтот параметр доступен, когда выполняется задача данных.
  • Возобновить

    Можно возобновить операцию задачи данных с того момента, когда она была остановлена.

    Примечание к информацииЭтот параметр доступен, когда задача данных остановлена.
  • Зеркальные данные

    Зеркалирование таблиц Открытое озеро данных Qlik в другие платформы данных. Эти происходит в задаче «Зеркальные данные».

    Зеркальное отображение данных в облачное хранилище данных

Ограничения

  • Если задача данных содержит наборы данных, а в подключении меняются какие-либо параметры, например имя пользователя, база данных или схема, предполагается, что соответствующие данные хранятся в новом месте. Если же это не так, можно сделать следующее:

    • Переместить данные в источнике в новое место.

    • Создайте новую задачу данных с теми же настройками.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!