Преобразование данных
В рамках конвейера данных можно создать преобразования данных на основе правил для многократного использования. Преобразования выполняются также в процессах подключения данных и для создания многократно используемых задач преобразования данных. Можно выполнять преобразования на уровне строк и создавать наборы данных, которые материализуются как таблицы или создаются как виды, выполняющие преобразования в реальном времени.
-
Преобразования можно задавать напрямую для каждого набора данных; кроме того, можно создавать глобальные правила по преобразованию множества наборов данных. Наборы данных можно фильтровать, чтобы получить подмножество строк.
-
Можно добавлять преобразования SQL.
Создание задачи преобразования данных
Самый простой способ создать задачу преобразования данных — нажать ... на задаче хранения данных и выбрать Преобразование данных.
Кроме того, в проекте данных можно нажать Добавить новое и выбрать Преобразование данных. В этом случае нужно указать исходную задачу данных.
-
Определите исходные данные в Преобразование данных.
Выберите исходный набор данных и нажмите Добавить, чтобы добавить их в Цель.
Чтобы добавить преобразование SQL, выберите набор данных и нажмите Добавить набор данных на основе SQL.
Примечание к подсказкеЧтобы добавить другие наборы данных из другого ресурса для хранения, нажмите Выбор источника данных. -
Убедитесь, что в добавленных наборах данных сделаны необходимые изменения, такие как преобразования, фильтры и добавление столбцов.
Для получения дополнительной информации см. раздел Управление наборами данных.
-
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
-
Создание модели данных
Нажмите модель, чтобы задать связи между наборами данных модели.
Для получения дополнительной информации см. раздел Создание модели данных.
-
Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Эта операция может занять некоторое время.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
-
Задачу данных можно запустить, если она имеет статус Подготовлена.
Нажмите ..., затем Выполнить.
Теперь задача данных начнет создавать наборы данных, предназначенные для преобразования.
Добавление преобразований SQL
В задачи преобразования можно включать преобразования SQL. Преобразование SQL позволяет ввести запрос SQL SELECT (ВЫБРАТЬ) в конвейер для определения сложных или простых преобразований.
-
В окне Преобразование наборов данных выберите наборы данных, которые нужно включить в запрос, затем нажмите Добавить преобразование SQL.
Для получения дополнительной информации см. раздел Добавление преобразований SQL.
Планирование задачи преобразования
Можно запланировать периодическое обновление задачи преобразования. Можно задать повременный график или настроить выполнение задачи после завершения задач ввода данных.
Нажмите на ... рядом с задачей данных и выберите Планирование, чтобы создать график. Настройка планирования по умолчанию наследуется из параметров проекта данных. Для получения дополнительной информации о настройках по умолчанию см. раздел Значения по умолчанию для преобразования.
Чтобы активировать график, необходимо, чтобы переключатель Планирование всегда находился в положении Вкл.
Повременные графики
Повременный график можно использовать для выполнения задачи независимо от времени обновления различных источников ввода.
-
Выберите значение В определенное время в поле Запустить задачу данных.
Можно настроить ежечасный, ежедневный, еженедельный или ежемесячный график.
Графики на основе событий
Можно использовать график на основе событий, чтобы выполнять задачу после завершения задач ввода данных.
-
Выберите значение При определенном событии в поле Запустить задачу данных.
Можно выбрать, как требуется выполнить задачу: после успешного завершения любой задачи ввода данных или после успешного завершения любой выборки задач ввода данных.
Отслеживание задачи преобразования
Для проверки состояния и хода выполнения задачи преобразования нажмите Мониторинг.
Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных.
Перезагрузка данных
Таблицы можно перезагружать вручную, если данные материализованы как физические таблицы. Это полезно, когда возникают проблемы в одной или нескольких таблицах. Если наборы данных не материализованы, необходимо перезагрузить исходные наборы данных в вышестоящей задаче данных, чтобы обновить данные.
-
Откройте задачу данных и перейдите вкладку Мониторинг.
-
Выберите таблицы, которые необходимо перезагрузить.
-
Щелкните Перезагрузить таблицы.
Перезагрузка происходит при следующем запуске задачи. Процесс перезагрузки протекает по-разному, в зависимости от настройки истории и от типа преобразования в каждом наборе данных. Это означает, что процесс перезагрузки может отличаться для разных наборов данных в задаче данных.
Можно отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы. Перезагрузки, выполняемые в данный момент, будут завершены.
Нижестоящие задачи будут перезагружены для применения изменений и предотвращения датирования задним числом. Это выполняется следующим образом:
-
Выполняется сравнение с полной загрузкой, и применяются изменения.
-
Применяются изменения, зарегистрированные после перезагрузки.
Перезагрузка набора данных без истории
В данном случае история не учитывается по причине ее отсутствия. Чтобы сократить обработку в целевом местоположении, перезагрузка выполняется в следующем порядке:
-
Таблицы усекаются.
-
Из вышестоящей задачи данных загружаются текущие данные.
Нижестоящие задачи будут перезагружены для применения изменений.
Перезагрузка набора данных с включенной историей
Перезагрузка выполняется следующим образом:
-
Усекаются текущие таблицы, предшествующие таблицы и таблицы изменений.
-
Загружаются данных из вышестоящей задачи данных, включая предшествующие таблицы.
Перезагрузка набора данных на основе преобразования SQL
-
Усечение и перезагрузка
Примечание к информацииИспользование этого варианта может привести к потере исторических данных.-
Усекаются текущие таблицы и таблицы изменений.
-
Выполняется запрос, его результаты загружаются в текущие таблицы.
-
-
Перезагрузка и сравнение
-
Выполняется запрос, его результаты сравниваются с текущими таблицами.
-
Добавляются изменения.
-
Параметры преобразования
Можно задать свойства задачи преобразования данных.
-
Щелкните Параметры.
Общие параметры
-
База данных
База данных, которая будет использоваться в источнике данных.
-
Схема задачи данных
Можно изменить имя схемы задачи хранения данных. Имя по умолчанию: store.
-
Внутренняя схема
Можно изменить имя внутренней схемы хранилища. Имя по умолчанию: store__internal.
- Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
Материализованные
На свое усмотрение можно создавать только виды, в которых преобразования выполняются в реальном времени (Нематериализованные, либо создавать и таблицы и виды (Материализованные).
-
История
Чтобы упростить воссоздание данных в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные об изменениях. Используйте виды истории и виды истории в реальном времени, чтобы просматривать исторические данные.
Параметры времени выполнения
-
Параллельное выполнение
Позволяет задать максимальное число подключений для передачи данных в режиме полной загрузки (число от 1 до 5).
-
Хранилище
Имя облачного хранилища данных.
Ограничения
-
Если выбрано Нематериализованные, нельзя изменить типы данных в задаче преобразования данных.
-
Нематериализованные наборы данных на основе SQL предоставляют только полный набор результатов, инкрементная фильтрация не поддерживается. Нематериализованные наборы данных на основе SQL также предоставляют только текущие данные и не хранят исторические записи.