Промежуточное хранение данных, полученных из источников данных
Первым этапом передачи данных при подключении является промежуточное хранение. При этом данные передаются из локального источника данных в область промежуточного хранения непрерывно.
На промежуточное хранение можно отправлять данные из множества источников данных, используя подключения к источникам.
Область промежуточного хранения определяется при создании проекта.
-
Qlik Cloud (через Amazon S3)
При размещении данных на промежуточное хранение в Qlik Cloud (через Amazon S3) их можно использовать для создания таблиц QVD, готовых для аналитики в Qlik Cloud.
-
Облачное хранилище данных
Когда данные помещены на промежуточное хранение в облачное хранилище данных, такое как Snowflake или Azure Synapse Analytics, можно хранить таблицы в том же облачном хранилище данных.
Создание и настройка задачи промежуточного хранения данных
Здесь описано, как создать задачу промежуточного хранения данных. Самый быстрый способ создать конвейер данных – подключить данные; в результате будет создана задача промежуточного хранения данных и задачу хранения данных, готовые к подготовительным операциям и запуску. Для получения дополнительной информации см. раздел Подключение данных.
-
В проекте нажмите Добавить новый и выберите Поместить данные на промежуточное хранение.
-
В диалоговом окне Поместить данные на промежуточное хранение введите имя и описание задачи данных.
Выберите Открыть, чтобы открыть задачу промежуточного хранения данных после создания.
Нажмите кнопку Создать.
-
Нажмите Выбрать исходные данные.
-
Выберите подключение к исходным данным и нажмите кнопку Далее.
Можно использовать фильтры на левой панели, чтобы фильтровать список подключений по типу источника, пространству и владельцу.
Если такого подключения к исходным данных пока нет, его необходимо создать. Для этого нажмите Добавить подключение.
Для получения дополнительной информации о настройке подключения к поддерживаемым источникам см. раздел Настройка подключений к источникам данных.
Примечание к информацииЕсли на следующем шаге выбрать таблицы, нельзя изменить подключение к источнику с локального источника данных на облачный и наоборот. В таком случае можно подключение можно изменить только на источник данных такого же типа. -
Выберите наборы данных, которые требуется включить в задачу данных. Окно выбора может отличаться в зависимости от того, к какому типу источнику производится подключение.
По завершении выбора таблиц нажмите кнопку Сохранить.
Отображается окно Наборы данных.
-
Можно изменить параметры промежуточного хранения. Это необязательно.
-
Нажмите Параметры.
Для получения дополнительной информации о параметрах см. раздел Параметры промежуточного хранения.
-
-
Теперь можно выполнить предварительный просмотр структуры и метаданных выбранных таблиц ресурса данных. В этом случае отображаются все прямо перечисленные таблицы, а также таблицы, которые отвечают правилам выбора.
Если требуется добавить больше таблиц из источника данных, нажмите Выбрать источник данных.
-
Можно выполнять базовые преобразования наборов данных, например фильтровать данные или добавлять столбцы. Это необязательно.
Для получения дополнительной информации см. раздел Управление наборами данных.
-
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
-
После изменения нажмите Подготовить, чтобы сохранить в каталоге задачу данных и подготовить ее для выполнения.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
-
Когда задача данных подготовлена и все готово к запуску репликации данных, нажмите Запустить.
Теперь должна начаться репликация, ход процесса можно увидеть в мониторе. Для получения дополнительной информации см. Мониторинг индивидуальной задачи данных.
Выбор данных в базе данных
Можно выбрать определенные таблицы или виды, а также использовать правила выбора для включения или исключения групп таблиц.
Чтобы задать критерий выборки для схем и таблиц, используйте знак подстановки %.
-
%.% позволяет выбрать все таблицы во всех схемах.
-
Public.% определяет все таблицы в схеме Public.
Критерий выбора позволяет просмотреть результат в зависимости от выбранных условий.
Можно выполнить любое из действий:
-
Создать правило для включения или исключения группы таблиц, удовлетворяющих критерию выбора.
Нажмите Добавить правило из критериев выбора, чтобы добавить правило, и выберите Включить или Исключить.
Правила отображаются в разделе Правило выбора.
-
Выберите один или несколько наборов данных и нажмите Добавить выбранные наборы данных.
Добавленные наборы данных отображаются в Явно выбранные наборы данных.
Правила выбора применяются только к текущему набору таблиц и видов, однако они не будут применяться к таблицам и видам, добавляемым позже.
Выполнение задачи промежуточного хранения с обновлением в режиме Захват данных обновлений (CDC)
Можно запустить задачу промежуточного хранения, когда она подготовлена. Это запустит репликацию, которая переносит данные из локального источника данных в область промежуточного хранения.
-
Нажмите Запустить, чтобы запустить промежуточное сохранение данных.
Начнется репликация, состояние задачи данных изменится на Выполняется. Во-первых, источник данных копируется полностью, а затем отслеживаются изменения. Это означает, что изменения постоянно отслеживаются и при обнаружении передаются. Это позволяет поддерживать данные промежуточного хранения в области промежуточного хранения в актуальном состоянии.
На главной странице Qlik Talend Data Integration можно просмотреть состояние, дату и время обновления данных промежуточного хранения и количество таблиц с ошибками. Также можно открыть задачу данных и перейти на вкладку Таблицы для просмотра базовых метаданных таблиц.
Можно отслеживать подробный ход выполнения на вкладке Мониторинг. Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных.
Когда загружены все таблицы и обработан первый набор изменений, поле Данные обновлены в на карточке задачи данных показывает, когда изменения источника до этого времени доступны в задаче данных.
Перезагрузка таблиц
Можно перезагрузить данные из источника.
Перезагрузка единичных таблиц
Можно перезагружать нужные таблицы вручную, не затрагивая процесс захвата данных изменений. Это полезно, когда возникают проблемы с CDC в одной или нескольких таблицах.
-
Откройте задачу промежуточного хранения данных и перейдите вкладку Мониторинг.
-
Выберите таблицы, которые необходимо перезагрузить.
-
Щелкните Перезагрузить таблицы.
Если проблемы не удается решить путем перезагрузки таблиц или если они затрагивают задачу целиком, то вместо этого можно перезагрузить все таблицы в цель. Будет запущен повторный захват изменений данных.
Перезагрузка всех таблиц в цель
Можно перезагрузить все таблицы в цель, если возникают проблемы с CDC, которые невозможно решить путем перезагрузки конкретных таблиц. В качестве примеров проблем можно привести отсутствующие события, проблемы, вызванные реорганизацией исходной базы данных, или ошибку чтения событий исходной базы данных.
- Остановите задачу данных и все задачи, которые ее используют.
-
Откройте задачу данных и перейдите вкладку Мониторинг.
-
Щелкните ..., а затем Перезагрузить цель.
В результате этого все таблицы будут перезагружены в цель с использованием операции «Отбросить-Создать» (Drop-Create), а также будут перезапущены все процессы захвата изменений данных с этого момента.
-
Задачи хранения, которые используют эту задачу промежуточного хранения, будут перезагружены в режиме «Сравнить и применить» для синхронизации при следующем запуске. Существующая история будет сохранена. История типа 2 будет обновлена с учетом изменений после выполнения процесса «Перезагрузка и сравнение».
Метка времени для начальной даты в истории типа 2 будет отражать дату перезагрузки, а не фактическую дату внесения изменения в источник.
-
Виды хранения в реальном времени не будут надежными во время операции перезагрузки цели и до окончания синхронизации. Хранилище полностью синхронизируется, когда:
-
все таблицы перезагружаются в режиме «Сравнить и применить»,
-
один цикл изменений выполняется для каждой таблицы.
-
Запуск задачи промежуточного хранения данных с режимом Перезагрузка и сравнение
Можно копировать данные с использованием задачи промежуточного хранения, когда она подготовлена.
-
Нажмите Запустить, чтобы начать выполнение полной загрузки.
Сейчас начнется копирование данных, и для задачи данных будет отображаться состояние Выполняется. Когда источник данных скопирован полностью, отображается состояние Завершено.
На главной странице Qlik Talend Data Integration можно просмотреть состояние, дату и время обновления данных промежуточного хранения и количество таблиц с ошибками. Также можно открыть задачу данных и перейти на вкладку Таблицы для просмотра базовых метаданных таблиц.
Можно отслеживать подробный ход выполнения на вкладке Мониторинг. Для получения дополнительной информации см. Мониторинг индивидуальной задачи данных.
Когда загружены все таблицы, поле Данные обновлены в на карточке задачи данных показывает, когда изменения источника до этого времени доступны в ресурсе данных. Однако некоторые таблицы задачи данных могут обновляться позднее в зависимости от того, когда началась загрузка. Это означает, что согласованность данных не гарантируется. Например, если загрузка началась в 08:00 и продолжалась 4 часа, в поле Данные обновлены в будет отображаться 08:00 по окончании загрузки. Однако таблицы, перезагрузка которых началась в 11.30, будут включать изменения источника, которые были внесены в период с 08:00 до 11:30.
Поле Данные обновлены в отражает только успешно загруженные таблицы. Оно не содержит сведений о таблицах, которые не удалось перезагрузить. В облачных целевых местоположениях поле будет пустым, если перезагрузка всех таблиц завершилась ошибкой.
Перезагрузка данных при использовании режима Перезагрузка и сравнение
Когда используется режим обновления Перезагрузка и сравнение, необходимо перезагрузить данные, чтобы обеспечить их актуальность при обновлении источника данных.
-
Щелкните Перезагрузить, чтобы выполнить перезагрузку всех таблиц вручную.
-
Настройте запланированную перезагрузку.
Перезагрузка единичных таблиц
Отдельные таблицы можно перезагрузить вручную. Это полезно, когда возникают проблемы в одной или нескольких таблицах.
-
Откройте задачу промежуточного хранения данных и перейдите вкладку Мониторинг.
-
Выберите таблицы, которые необходимо перезагрузить.
-
Щелкните Перезагрузить таблицы.
- Этот параметр станет доступным после того, как задача промежуточного хранения будет запущена хотя бы один раз, и только если задача не выполняется в данный момент.
- Изменения метаданных не поддерживаются. Если в источнике имеются изменения метаданных, они переносятся в данные на промежуточном хранении при перезагрузке, но не обрабатываются надлежащим образом. Это может привести к ошибке принимающего хранилища.
Планирование задачи промежуточного хранения данных с режимом Перезагрузка и сравнение
Планировать периодические перезагрузки задачи промежуточного хранения данных можно, если пользователю назначена роль Может выполнять задачи оператора в пространстве задачи данных. Эта задача данных должна находиться в состоянии Подготовлено, чтобы график был активным.
-
Нажмите на ... рядом с задачей данных и выберите Планирование.
Можно настроить повременный график.
Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.
Настройка приоритета загрузки для наборов данных
В задаче данных можно назначить приоритет загрузки каждому набору данных, чтобы управлять порядком их загрузки. Это может быть полезно, например, если необходимо, чтобы меньшие наборы данных загружались раньше больших.
-
Щелкните Приоритет загрузки.
-
Выберите приоритет загрузки для каждого набора данных.
По умолчанию задан приоритет загрузки Нормальный. Наборы данных будут загружаться в следующем порядке приоритета:
-
Самый высокий
-
Более высокий
-
Высокий
-
Нормальный
-
Низкий
-
Более низкий
-
Самый низкий
Наборы данных с одинаковым приоритетом загружаются без соблюдения какого-то особого порядка.
-
-
Щелкните ОК.
Операции с ресурсом данных промежуточного хранения
Над задачей промежуточного хранения данных можно выполнить следующие операции в меню задачи.
-
Открыть
Это открывает задачу промежуточного хранения данных. Можно просмотреть структуру таблицы и сведения о задаче данных.
-
Изменить
Можно изменить имя и описание задачи.
-
Удалить
Можно удалить задачу данных.
Следующие объекты не удаляются, их необходимо удалять вручную:
-
Данные в области промежуточного хранения
-
-
Запустить
Можно запустить задачу данных, чтобы начать копирование данных.
Выполнение задачи промежуточного хранения с обновлением в режиме Захват данных обновлений (CDC)
Запуск задачи промежуточного хранения данных с режимом Перезагрузка и сравнение
-
Остановить
Можно остановить выполнение активной задачи данных. Область промежуточного хранения не обновляется при изменении данных.
При остановке полной загрузки задачи данных с графиком перезагрузки останавливается только текущая перезагрузка. Если задача данных находится в состоянии Остановлено и имеется активный график перезагрузки, она перезагрузится при наступлении следующего запланированного времени. Нужно отключить график перезагрузки в Запланировать перезагрузку.
-
Перезагрузить
Можно выполнить ручную перезагрузку задачи данных в режиме обновления Перезагрузка и сравнение.
- Подготовить
Эта операция позволяет подготовить задачу к выполнению. Это включает:
-
проверку допустимости дизайна,
-
создание или изменение физических таблиц и видов в соответствии с дизайном,
-
создание кода SQL для задачи данных,
-
создание или изменение записей каталога для выходных наборов данных задачи.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
-
-
Воссоздание таблиц
Воссоздание наборов данных из источника.
-
Выполняется планирование
Можно настроить запланированную перезагрузку для задач промежуточного хранения данных в режиме Полная загрузка. Можно создать повременный график с индивидуальными настройками.
Кроме того, запланированные перезагрузки можно включать или выключать.
Для создания графика перезагрузки требуется роль Может выполнять задачи оператора в пространстве задачи данных.
-
Хранить данные
Можно создать задачу хранения данных, которая использует данные из задачи промежуточного хранения данных.
Обновление метаданных
Можно обновить метаданные в задаче в соответствии с изменениями метаданных источника в виде Дизайн задачи. Для приложений SaaS, использующих Metadata Manager, необходимо обновить Metadata Manager, прежде чем обновлять метаданные в задаче данных.
-
Можно либо:
-
Щелкните ..., а затем Обновить метаданные, чтобы обновить метаданные для всех наборов данных в задаче.
-
Щелкните ... для набора данных в списке Наборы данных, а затем Обновить метаданные, чтобы обновить метаданные для одного набора данных.
Можно просмотреть статус обновления метаданных в области Обновить метаданные в нижней части экрана. Чтобы увидеть время последнего обновления метаданных, наведите указатель мыши на .
-
-
Подготовьте задачу данных, чтобы применить изменения.
После того как задача данных подготовлена, а изменения применены, изменения удаляются из области Обновить метаданные.
Необходимо подготовить задачи хранения, которые используют эту задачу для распространения изменений
Если столбец удаляется, добавляется преобразование с нулевыми значениями (Null), чтобы исключить потерю исторических данных при хранении
Ограничения
-
Если выполняется переименование столбца, а предшествующий столбец отбрасывается, эта задача преобразуется в переименование отброшенного столбца, если эти столбцы имеют одинаковые тип и длину данных.
Пример:
До: a b c d
После: a c1 d
В этом примере столбец b отбрасывался, а c переименован в c1, при этом b и c имеют одинаковые тип и длину данных.
Это будет идентифицировано как переименование b в c1 и отбрасывание c.
-
Переименование последнего столбца не распознается, даже если он отброшен, а предшествующий столбец переименован.
Пример:
До: a b c d
После: a b c1
В этом примере столбец d отброшен, а c переименован в c1.
Это будет идентифицировано как отбрасывание c и d, и добавление c1.
-
Предполагается, что новые столбцы добавляются в конце. Если столбцы добавляются в середине с тем же типом данных, что и следующий столбец, эти задачи могут быть интерпретированы как отбрасывание и переименование.
Удаление столбцов
Если опускается столбец, используемый задачей хранения данных с включенной историей, необходимо выполнить следующие действия, чтобы сохранить историю и предотвратить возможную потерю данных.
Остановите задачу промежуточного хранения данных.
Запустите задачу хранения данных, чтобы обеспечить чтение всех данных на промежуточном хранении.
Опустите столбец в промежуточном хранении.
Запустите задачу промежуточного хранения данных.
В хранилище добавьте столбец с выражением по умолчанию (Null или значение по умолчанию), либо опустите столбец.
Обслуживание области промежуточного хранения
Не поддерживается автоматическая очистка области промежуточного хранения. Это может отразиться на производительности.
Рекомендуется выполнять ручную очистку данных старой полной загрузки в области промежуточного хранения.
Qlik Cloud (через Amazon S3)
Если имеется несколько папок с данными полной загрузки, можно удалить все папки, кроме самой последней. Также можно удалить разделы обработанных изменений в данных.
Облачное хранилище данных
Записи таблицы полной загрузки и изменений, которые были обработаны, можно удалить.
Рекомендации
Если первичный ключ в исходной таблице доступен для обновления, включите DELETE и INSERT при обновлении параметра столбца первичного ключа на вкладке Настройка обработки изменений.
Ограничения
Не поддерживается репликация данных varchar длиннее 8000 байт и Nvarchar длиннее 4000 байт.
Изменение допустимости нулевых значений не поддерживается в столбцах, которые перемещены путем непосредственного изменения или с использованием правила преобразования. Однако новые столбцы, создаваемые в задаче, допускают нулевые значения по умолчанию.
В отношении преобразований действуют следующие ограничения:
- Преобразования не поддерживаются для столбцов на языках с письмом справа налево.
Невозможно выполнять преобразования в столбцах, в имени которых есть специальные символы (например, #, \, /, -).
- Единственное поддерживаемое преобразование для типов данных LOB/CLOB ― это отбрасывание столбца в целевой таблице.
- Не поддерживается использование преобразования с целью переименования столбца и последующего добавления нового столбца с тем же именем.