Хранение наборов данных
Наборы данных можно сохранять, используя задачу хранения данных. Задача хранения данных использует данные, которые были переданы на промежуточное хранение в облако задачей промежуточного хранения данных. Таблицы можно использовать, например, в аналитическом приложении.
-
Можно спроектировать задачу хранения данных, если состояние задачи промежуточного хранения данных не ниже чем Готово к подготовке.
-
Можно подготовить задачу хранения данных, если состояние задачи промежуточного хранения данных не ниже чем Готово к выполнению.
Задача хранения данных будет использовать тот же режим работы (Полная загрузка или Полная загрузка и CDC), что и использованная задача промежуточного хранения данных. В этих двух режимах работы используются разные свойства конфигурации, а также разные параметры мониторинга и управления. Если используется задача промежуточного хранения данных с режимом «только полная загрузка» в облачном целевом местоположении, задача хранения данных будет создавать виды таблиц промежуточного хранения, а не физические таблицы.
Создание задачи хранения данных
Задачу хранения данных можно создать тремя способами:
-
Щелкните ... рядом с задачей промежуточного хранения данных и выберите Хранить данные, чтобы создать задачу хранения данных на основе ресурса данных промежуточного хранения.
-
В проекте щелкните Создать, затем Сохранить данные. В этом случае нужно указать, какую задачу промежуточного хранения данных требуется использовать.
-
Задача хранения данных создается при подключении данных. Она подключается к задаче промежуточного хранения данных, также создаваемой во время подключения данных.
Для получения дополнительной информации см. раздел Подключение данных.
Если создана задача хранения данных:
-
Откройте задачу хранения данных, нажав ... и выбрав Открыть.
Откроется задача хранения данных; можно проверить полученные наборы данных, составленные на основе таблиц из ресурса данных промежуточного хранения. -
Убедитесь, что в добавленных наборах данных сделаны необходимые изменения, такие как преобразования, фильтры и добавление столбцов.
Для получения дополнительной информации см. раздел Управление наборами данных.
-
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
-
Создание модели данных
Нажмите модель, чтобы задать связи между наборами данных модели.
Для получения дополнительной информации см. раздел Создание модели данных.
-
Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Эта операция может занять некоторое время.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
-
Задача данных готова к запуску, если имеет состояние Готово к выполнению.
Нажмите Запустить.
Теперь задача данных начнет создавать наборы данных, предназначенные для хранения данных.
Сохранение исторических данных
Чтобы легко воссоздавать данные в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные (данные типа 2) об изменениях. При этом также создается хранилище всех исторических данных (HDS, historical data store).
-
Поддерживаются медленно изменяющиеся измерения типа 2.
-
При слиянии измененных записей создается новая запись для хранения измененных данных, а старая запись остается нетронутой.
-
Новым записям HDS автоматически присваиваются метки времени, что позволяет создавать анализ трендов и другие ориентированные на время аналитические киоски данных.
Чтобы включить исторические данные, нажмите:
-
Репликация с текущими данными и историей предыдущих данных в окне Настройки при подключении данных
-
Хранить исторические записи и архив записей об изменениях в диалоговом окне Настройки при создании задачи хранения
Данные HDS хранятся в предшествующей таблице во внутренней схеме данных. Используйте виды истории и виды истории в реальном времени во внешней схеме данных, чтобы просматривать исторические данные.
-
Вид истории объединяет данные из текущей и предшествующей таблиц. Этот вид включает все изменения, которые объединяются.
-
Вид истории в реальном времени объединяет данные из текущей и предшествующей таблиц, а также из таблицы изменений. Этот вид также включает все изменения, которые еще не объединены.
Для получения дополнительной информации см. раздел Архитектура базы данных в облачном хранилище данных.
Хранение
Планирование задачи хранения
Можно запланировать периодическое обновление задачи хранения.
-
Если задача промежуточного хранения данных ввода использует режим Полная загрузка и CDC, можно настроить только повременный график.
-
Если задача промежуточного хранения данных ввода использует режим Полная загрузка, можно задать повременный график или настроить выполнение задачи после завершения задачи промежуточного хранения данных ввода.
Примечание к информацииКогда запускается повременный график с задачей промежуточного хранения данных ввода с использованием режима Полная загрузка, рассматривайте каждую заполненную таблицу в промежуточном хранилище как доступную, пока не завершилось выполнение задачи промежуточного хранения. Это позволяет выполнять задачи промежуточного хранения и хранения одновременно, благодаря чему сокращается общее время загрузки.
Нажмите на ... рядом с задачей данных и выберите Планирование, чтобы создать график. Настройка планирования по умолчанию наследуется из параметров проекта данных. Для получения дополнительной информации о настройках по умолчанию см. раздел Значения по умолчанию для хранения. Чтобы активировать график, необходимо, чтобы переключатель Планирование всегда находился в положении Вкл.
Повременные графики
Можно использовать повременный график для выполнения задачи хранения данных независимо от типа промежуточного хранения.
-
Выберите значение В определенное время в поле Запустить задачу данных.
Можно настроить ежечасный, ежедневный, еженедельный или ежемесячный график.
Графики на основе событий
-
Выберите значение При успешном завершении любой задачи ввода данных в поле Запустить задачу данных.
Задача хранения будет выполняться каждый раз, после успешного завершения промежуточного хранения данных ввода.
Мониторинг задачи хранения
Для проверки состояния и хода выполнения задачи хранения нажмите Мониторинг.
Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных.
Устранение неполадок с задачами хранения данных
Когда возникают проблемы с одной или несколькими таблицами в задаче хранения данных, может потребоваться перезагрузить или воссоздать данные. Это можно сделать несколькими способами. Рассматривайте варианты в следующем порядке:
-
Можно перезагрузить набор данных в месте промежуточного хранения. Перезагрузка набора данных в месте промежуточного хранения запустит процесс сравнения в хранилище и исправит данные, сохранив историю типа 2. Этот вариант также следует рассматривать, когда:
-
Полная загрузка была выполнена очень давно, и имеется большое количество изменений.
-
Если записи полной загрузки и таблицы изменений, которые были обработаны, были удалены в рамках обслуживания области промежуточного хранения.
Промежуточное хранение данных, полученных из источников данных
-
-
Можно перезагрузить данные из задачи хранения данных.
Если исторические данные включены, перезагрузка в хранилище может привести к потере исторических данных. Если это представляет проблему, тогда попробуйте перезагрузить данные в место промежуточного хранения из источника.
-
Можно воссоздать таблицы. Воссоздание наборов данных из источника.
-
Щелкните ..., а затем Воссоздать таблицы. При воссоздании таблицы нижестоящая задача будет реагировать, как в случае усечения и перезагрузки исходных наборов данных.
-
Перезагрузка данных
Можно выполнить перезагрузку таблиц вручную. Это полезно, когда возникают проблемы в одной или нескольких таблицах.
-
Откройте задачу данных и перейдите вкладку Мониторинг.
-
Выберите таблицы, которые необходимо перезагрузить.
-
Щелкните Перезагрузить таблицы.
Перезагрузка происходит при следующем запуске задачи и выполняется в следующем порядке:
-
Таблицы усекаются.
-
Данные из места промежуточного хранения загружаются в таблицу.
-
Загружаются изменения, накопленные с момента последней перезагрузки.
Как правило, вместо этого рекомендуется перезагрузить набор данных на промежуточном хранении. В особенности, это касается следующих случаев:
-
Если исторические данные включены, перезагрузка в хранилище может привести к потере исторических данных. Перезагрузка набора данных в месте промежуточного хранения запустит процесс сравнения в хранилище и исправит данные, сохранив историю типа 2.
-
Когда полная загрузка была выполнена очень давно, и имеется большое количество изменений.
-
Если записи полной загрузки и таблицы изменений, которые были обработаны, были удалены в рамках обслуживания области промежуточного хранения.
Нижестоящие задачи будут перезагружены для применения изменений и предотвращения датирования задним числом. Если перезагрузка выполняется путем усечения и перезагрузки, все нижестоящие объекты также будут перезагружены этим способом.
Воздействие на нижестоящие объекты зависит от типа выполненной операции перезагрузки и от ближайшего нижестоящего типа набора данных. Стандартная обработка означает, что набор данных будет реагировать и обрабатывать данные, используя метод, настроенный для этого конкретного набора данных.
-
В нижестоящих задачах преобразования:
Преобразования набора данных перезагружаются методом усечения и загрузки.
Преобразования SQL и потоки преобразования перезагружаются путем сравнения с полной загрузкой и применения изменений.
-
Задачи киоска данных, следующие непосредственно за задачей хранения, перезагружаются путем усечения и загрузки.
Можно отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы. Перезагрузки, выполняемые в данный момент, будут завершены.
Эволюция схемы
Эволюция схем позволяет легко обнаружить структурные изменения в нескольких источниках данных, а затем контролировать применение этих изменений к задаче. Эволюцию схемы можно использовать для обнаружения изменений DDL, которые были внесены в исходную схему данных. Также можно применить некоторые изменения автоматически.
Для каждого типа изменения можно выбрать способ обработки изменений в разделе Эволюции схемы в настройках задачи. Можно применить изменение, проигнорировать его, приостановить работу таблицы или остановить обработку задачи.
Можно задать, какое действие будет использоваться для обработки изменений DDL для каждого типа изменений. Некоторые действия доступны не для всех типов изменений.
-
Применить к цели
Изменения применяются автоматически.
-
Игнорировать
Изменения игнорируются.
-
Приостановить таблицу
Таблица приостанавливается. Для таблицы будет отображаться ошибка в разделе Мониторинг.
-
Остановить задачу
Обработка задачи останавливается. Это удобно, если требуется обрабатывать все изменения схемы вручную. Это также остановит составление графика, то есть запланированные запуски не будут выполняться.
Поддерживаются следующие изменения:
-
Добавить столбец
-
Создать таблицу, соответствующую шаблону выборки
Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону.
Для получения дополнительной информации о параметрах задачи см. раздел Эволюция схемы
Ограничения для эволюции схемы
При эволюции схемы действуют следующие ограничения.
-
Эволюция схемы поддерживается только при использовании CDC в качестве метода обновления.
-
Если параметры эволюции схемы изменены, необходимо подготовить задачу заново.
-
Если выполняется переименование таблиц, эволюция схемы не поддерживается. В этом случае необходимо обновить метаданные перед подготовкой задачи.
-
В процессе разработки задачи необходимо обновить браузер, чтобы получить изменения эволюции схемы. Можно настроить уведомления, чтобы получать оповещения об изменениях.
-
В задачах промежуточного хранения отбрасывание столбцов не поддерживается. Отбрасывание и добавление столбца приведет к ошибке таблицы.
-
В задачах промежуточного хранения операция DROP TABLE (ОТБРОСИТЬ ТАБЛИЦУ) не приведет к отбрасыванию таблицы. Удаление таблицы и последующее добавление таблицы приводит лишь к тому, что старая таблица усекается, а новая таблица не добавляется.
-
Изменение длины столбца возможно не для всех целей в зависимости от поддержки в целевой базе данных.
-
Если имя столбца изменено, явные преобразования, определенные с помощью этого столбца, не будут выполняться, так как они основаны на имени столбца.
-
Ограничения, действующие при обновлении метаданных, также распространяются и на эволюцию схем.
При захвате изменений DDL действуют следующие ограничения:
-
Когда в исходной базе данных происходит быстрая последовательность операций (например, DDL>DML>DDL), Qlik Talend Data Integration может разобрать журнал в неправильном порядке, что приведет к отсутствию данных или непредсказуемому поведению. Чтобы свести к минимуму такую вероятность, лучше всего подождать, пока изменения будут применены к цели, и только после этого выполнять следующую операцию.
Например, если исходная таблица переименовывается несколько раз подряд в течение короткого интервала времени (и вторая операция переименования возвращает ей исходное имя), во время захвата изменений может появиться сообщение об ошибке, что таблица уже существует в целевой базе данных.
- Если выполняется переименование таблицы, используемой в задаче, а затем эта задача останавливается, Qlik Talend Data Integration не захватит изменения, внесенные в эту таблицу после возобновления задачи.
-
Переименование исходной таблицы, пока задача остановлена, не поддерживается.
- Перераспределение столбцов первичного ключа таблицы не поддерживается (и поэтому не записывается в управляющую таблицу DDL History).
- Если тип данных столбца изменен, а затем выполняется переименование этого же столбца, пока задание остановлено, изменение DDL отражается в управляющей таблице DDL History как Drop Column (Отбросить столбец), а затем Add Column (Добавить столбец), когда задача возобновляется. Обратите внимание, что такое же поведение может наблюдаться и в результате длительной задержки.
- Операции CREATE TABLE (СОЗДАТЬ ТАБЛИЦУ), выполненные в источнике, пока задача остановлена, будут применены к цели при возобновлении задачи, но не будут записаны как DDL в управляющей таблице DDL History.
-
Операции, связанные с изменением метаданных (такие как ALTER TABLE (ИЗМЕНИТЬ ТАБЛИЦУ), реорганизация, перестройка кластеризованного индекса и т. д.), могут вызывать непредсказуемое поведение, если они были выполнены:
-
Во время полной загрузки
-ИЛИ-
-
Между меткой времени Начать обработку изменений с и текущим временем (т. е. моментом, когда пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска).
Пример:
ЕСЛИ:
Указанное время Начать обработку изменений с ― 10:00.
И:
Столбец с именем Age (Возраст) добавляется в таблицу Employees (Сотрудники) в 10:10 утра.
И:
Пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска в 10:15 утра.
ТО:
Изменения, которые произошли между 10:00 и 10:10, могут привести к ошибкам CDC.
Примечание к информацииВ любом из вышеперечисленных случаев необходимо перезагрузить затронутые таблицы, чтобы данные были правильно перенесены (перенесено) в цель.
-
- Оператор DDL
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
не реплицирует значение по умолчанию в цель, и новый/измененный столбец получает значение NULL. Обратите внимание, что это может произойти, даже если DDL, добавивший/изменивший столбец, был выполнен в прошлом. Если новый/измененный столбец допускает нулевые значения, конечная точка источника обновляет все строки таблицы, прежде чем регистрировать сам DDL. В результате Qlik Talend Data Integration захватывает изменения, но не обновляет цель. Поскольку новый/измененный столбец получает значение NULL, то если целевая таблица не имеет столбца первичного ключа/уникального индекса, при последующих обновлениях будет появляться сообщение «Затронуто строк: 0». -
Изменения в столбцах с точными данными TIMESTAMP (МЕТКА ВРЕМЕНИ) и DATE (ДАТА) не будут захватываться.
Настройки хранения
Можно задать свойства для задачи хранения данных, когда в качестве платформы данных используется облачное хранилище данных. Если в качестве платформы данных используется Qlik Cloud, выберите Настройки хранилища для проектов данных при использовании платформы данных Qlik Cloud.
-
Нажмите Параметры.
Общие параметры
-
База данных
База данных, которая будет использоваться в источнике данных.
-
Схема задачи
Можно изменить имя схемы задачи хранения данных. Имя по умолчанию – имя задачи хранения.
-
Внутренняя схема
Вы можете изменить имя схемы ресурса внутреннего хранилища. Имя по умолчанию – имя задачи хранения, к которому добавлена строка _internal.
- Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
История
Чтобы упростить воссоздание данных в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные об изменениях. Используйте виды истории и виды истории в реальном времени, чтобы просматривать исторические данные. Выберите Ведение исторических записей и изменение архива записей, чтобы активировать исторические данные об изменениях.
-
При сравнении хранилища с промежуточным хранением необходимо выбрать, как обращаться с записями, которые отсутствуют в промежуточном хранении.
-
Пометить как удаленный
Записи, которые отсутствуют в промежуточном хранении, удаляются обратимым образом.
-
Сохранить
Все записи, отсутствующие в промежуточном хранении, сохраняются.
Примечание к информацииНаборы данных в задаче хранения данных должны иметь набор первичных ключей. В противном случае для задачи хранения данных каждый раз будет выполняться первичная загрузка данных промежуточного хранения. -
Параметры видов
-
Виды в реальном времени
Для чтения таблиц с минимальной задержкой используйте виды, транслируемые в реальном времени.
Для получения дополнительной информации о видах в реальном времени см. раздел Использование видов в реальном времени.
Примечание к информацииДанные в видах реального времени, обрабатываются непрерывно, поэтому такие виды менее эффективны и более требовательны к ресурсам, чем стандартные виды.
Параметры времени выполнения
-
Параллельное выполнение
Позволяет задать максимальное число подключений для полной загрузки (число от 1 до 5).
-
Хранилище
Имя облачного хранилища данных. Параметр применим только для Snowflake.
Параметры каталога
-
Опубликовать в каталоге
Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.
Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.
Эволюция схемы
Выберите, как обрабатывать следующие типы изменений DDL в схеме. Когда изменены параметры эволюции схемы, необходимо подготовить задачу заново. В таблице ниже описано, какие действия доступны для поддерживаемых изменений DDL.
Изменение DDL | Применить к цели | Игнорировать | Остановить задачу |
---|---|---|---|
Добавление столбца | Да | Да | Да |
Создать таблицу Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону. | Да | Да | Да |
Настройки хранилища для проектов данных при использовании платформы данных Qlik Cloud
Можно настроить, какая папка должна использоваться в хранилище, когда в качестве платформы данных выбрана Qlik Cloud.
Нажмите Параметры.
Выберите, какая папка будет использоваться в хранилище.
В заключение нажмите OK.
Операции с задачей хранения данных
С задачей хранения данных можно выполнять следующие операции в меню задачи.
Открыть
Это открывает задачу хранения данных. Можно просмотреть структуру таблиц и сведения о задаче данных, а также отслеживать состояние для полной загрузки и пакетов изменений.
Изменить
Можно изменить имя и описание задачи, а также добавить теги.
Удалить
Можно удалить задачу данных.
Подготовить
Эта операция позволяет подготовить задачу к выполнению. Это включает:
проверку допустимости дизайна,
создание или изменение физических таблиц и видов в соответствии с дизайном,
создание кода SQL для задачи данных,
создание или изменение записей каталога для выходных наборов данных задачи.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
Проверить наборы данных
Проверяются все наборы данных, содержащиеся в задаче данных.
Разверните раздел Проверить и исправить, чтобы просмотреть все ошибки проверки и изменения дизайна.
Воссоздание таблиц
Воссоздание наборов данных из источника. При воссоздании таблицы нижестоящая задача будет реагировать, как в случае усечения и перезагрузки исходных наборов данных. Для получения дополнительной информации см. раздел Устранение неполадок с задачами хранения данных.
Остановить
Можно остановить выполнение задачи данных. Задача данных перестанет обновлять таблицы.
Примечание к информацииЭтот параметр доступен, когда выполняется задача данных.Возобновить
Можно возобновить операцию задачи данных с того момента, когда она была остановлена.
Примечание к информацииЭтот параметр доступен, когда задача данных остановлена.Преобразование данных
Создавайте многократно используемые преобразования на уровне строк на основе правил и пользовательского SQL. При этом создается задача данных для преобразования.
Создать киоск данных
Создание киоска данных для эффективного использования задач данных. Эта задача предполагает создание задачи данных для киоска данных.
Ограничения
Если задача данных содержит наборы данных, а в подключении меняются какие-либо параметры, например имя пользователя, база данных или схема, предполагается, что соответствующие данные хранятся в новом месте. Если же это не так, можно сделать следующее:
Переместить данные в источнике в новое место.
Создайте новую задачу данных с теми же настройками.
Невозможно изменить первичные ключи в задачах хранения, если в проекте выбрана цель Qlik Cloud (QVD). Обновите первичные ключи в задаче промежуточного хранения, повторно создайте задачу промежуточного хранения, затем повторно создайте задачу хранения.