Перейти к основному содержимому Перейти к дополнительному содержимому

Преобразование данных

В рамках конвейера данных можно создать преобразования данных на основе правил для многократного использования. Преобразования выполняются также в процессах подключения данных и для создания многократно используемых задач преобразования данных. Можно выполнять преобразования на уровне строк и создавать наборы данных, которые материализуются как таблицы или создаются как виды, выполняющие преобразования в реальном времени.

  • Можно выполнять явные преобразования набора данных или создавать глобальные правила, которые преобразуют несколько наборов данных. Наборы данных можно фильтровать, чтобы получить подмножество строк.

  • Можно добавлять преобразования SQL. Преобразование SQL позволяет ввести запрос SQL SELECT (ВЫБРАТЬ) в конвейер для определения сложных или простых преобразований.

  • Можно добавлять визуальные потоки преобразований, используя источники, процессоры и цели для определения сложных или простых преобразований.

Примечание к информацииЗадачи данных работают в контексте их владельца. Для получения дополнительной информации о необходимых ролях и разрешениях см. раздел Роли и разрешения в пространстве данных.

Создание задачи преобразования данных

Самый простой способ создать задачу преобразования данных — нажать ... на задаче хранения данных и выбрать Преобразование данных.

Кроме того, в проекте данных можно нажать Добавить новое и выбрать Преобразование данных. В этом случае нужно указать исходную задачу данных.

  1. Определите исходные данные и цели в окне Преобразование.

    Также можно:

    • Выберите исходные наборы данных и нажмите Добавить в цель, чтобы добавить их в список Цель.

      Можно выполнять базовые преобразования наборов данных, например фильтровать данные или добавлять столбцы, в окне Наборы данных.

      Для получения дополнительной информации см. раздел Управление наборами данных.

    • Выберите исходные наборы данных и щелкните Добавить преобразование SQL.

      Преобразование SQL позволяет ввести запрос SQL SELECT (ВЫБРАТЬ) в конвейер для определения сложных или простых преобразований.

      Для получения дополнительной информации см. раздел Добавление преобразований SQL.

    • Выберите исходные наборы данных и щелкните Добавить поток преобразования.

      Конструктор потоков позволяет создать поток преобразования, используя источники, процессоры и цели для определения сложных или простых преобразований.

      Для получения дополнительной информации см. раздел Добавление потоков преобразования.

    Примечание к подсказкеЧтобы добавить другие наборы данных из других задач хранения данных, щелкните Выберите исходные данные.
  2. При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.

    Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.

  3. Создание модели данных

    Нажмите модель, чтобы задать связи между наборами данных модели.

    Для получения дополнительной информации см. раздел Создание модели данных.

  4. Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Эта операция может занять некоторое время.

    Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.

  5. Задачу данных можно запустить, если она имеет статус Подготовлена.

    Нажмите ..., затем Выполнить.

Теперь задача данных начнет создавать наборы данных, предназначенные для преобразования.

Примечание к информацииПосле запуска процесса генерирования наборов данных изменить добавленные наборы данных нельзя.

Планирование задачи преобразования

Можно запланировать периодическое обновление задачи преобразования. Можно задать повременный график или настроить выполнение задачи после завершения задач ввода данных.

Нажмите на ... рядом с задачей данных и выберите Планирование, чтобы создать график. Настройка планирования по умолчанию наследуется из параметров проекта данных. Для получения дополнительной информации о настройках по умолчанию см. раздел Значения по умолчанию для преобразования.

Чтобы активировать график, необходимо, чтобы переключатель Планирование всегда находился в положении Вкл.

Примечание к информацииЕсли все наборы данных в задаче являются нематериализованными, невозможно выполнить задачу, так как преобразование осуществляется по ходу работы с видами. Можно все равно создать график для задачи нематериализованного преобразования, которая будет выполняться в случае удовлетворения условия графика. Задача будет сразу же выполнена, что может инициировать нижестоящую задачу, такую как задача киоска данных. Это позволяет создать график конвейера на основе событий, который включает нематериализованные преобразования без прерывания потока конвейера.

Повременные графики

Повременный график можно использовать для выполнения задачи независимо от времени обновления различных источников ввода.

  • Выберите значение В определенное время в поле Запустить задачу данных.

Можно настроить ежечасный, ежедневный, еженедельный или ежемесячный график.

Графики на основе событий

Можно использовать график на основе событий, чтобы выполнять задачу после завершения задач ввода данных.

  • Выберите значение При определенном событии в поле Запустить задачу данных.

Можно выбрать, как требуется выполнить задачу: после успешного завершения любой задачи ввода данных или после успешного завершения любой выборки задач ввода данных.

Примечание к информацииЗадача не будет запущена, если любая задача ввода данных или нижестоящая задача выполняется в момент активации графика. Задача пропускается до следующего запланированного запуска.

Отслеживание задачи преобразования

Для проверки состояния и хода выполнения задачи преобразования нажмите Мониторинг.

Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных.

Перезагрузка данных

Таблицы можно перезагружать вручную, если данные материализованы как физические таблицы. Это полезно, когда возникают проблемы в одной или нескольких таблицах.

Примечание к информацииЕсли наборы данных не материализованы, необходимо перезагрузить исходные наборы данных в вышестоящей задаче данных, чтобы обновить данные.
  1. Откройте задачу данных и перейдите вкладку Мониторинг.

  2. Выберите таблицы, которые необходимо перезагрузить.

  3. Щелкните Перезагрузить таблицы.

Перезагрузка происходит при следующем запуске задачи. Процесс перезагрузки протекает по-разному, в зависимости от настройки истории и от типа преобразования в каждом наборе данных. Это означает, что процесс перезагрузки может отличаться для разных наборов данных в задаче данных.

Можно отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы. Перезагрузки, выполняемые в данный момент, будут завершены.

Нижестоящие задачи будут перезагружены для применения изменений и предотвращения датирования задним числом.

Воздействие на нижестоящие объекты после перезагрузки задачи преобразования данных

Влияние перезагрузки задачи преобразования на нижестоящие объекты

Воздействие на нижестоящие объекты зависит от типа выполненной операции перезагрузки и от ближайшего нижестоящего типа набора данных. Стандартная обработка означает, что набор данных будет реагировать и обрабатывать данные, используя метод, настроенный для этого конкретного набора данных.

Пример: Перезагрузка набора данных путем усечения и загрузки

  • Если следующий набор данных использует преобразования набора данных, он будет перезагружен при следующем выполнении методом усечения и загрузки.

  • Если следующий набор данных представляет собой преобразование SQL или поток преобразования, он будет перезагружен методом сравнения и применения.

Перезагрузка набора данных без истории

В данном случае история не учитывается по причине ее отсутствия. Чтобы сократить обработку в целевом местоположении, перезагрузка выполняется в следующем порядке:

  1. Таблицы усекаются.

  2. Из вышестоящей задачи данных загружаются текущие данные.

Нижестоящие задачи будут перезагружены для применения изменений.

Перезагрузка набора данных с включенной историей

Перезагрузка выполняется следующим образом:

  1. Усекаются текущие таблицы, предшествующие таблицы и таблицы изменений.

  2. Загружаются данных из вышестоящей задачи данных, включая предшествующие таблицы.

Перезагрузка набора данных на основе преобразования SQL или потока преобразования

  • Усечение и перезагрузка

    Примечание к информацииИспользование этого варианта может привести к потере исторических данных.
    1. Усекаются текущие таблицы и таблицы изменений.

    2. Выполняется запрос, его результаты загружаются в текущие таблицы.

  • Перезагрузка и сравнение

    1. Выполняется запрос, его результаты сравниваются с текущими таблицами.

    2. Добавляются изменения.

Примечание к информацииКогда набор данных на основе преобразования SQL или потока преобразования перезагружается из-за вышестоящей задачи перезагрузки, всегда используется режим «Сравнить и применить». Если требуется усечь и перезагрузить набор данных, необходимо инициировать специфическую перезагрузку для этих таблиц. В таком случае необходимо учитывать воздействие на нижестоящие таблицы.

Параметры преобразования

Можно задать свойства задачи преобразования данных.

  • Щелкните Параметры.

Примечание к предупреждениюЕсли задача уже запущена, то для изменения параметров (за исключением параметров времени выполнения) необходимо повторно создать наборы данных.

Общие параметры

  • База данных

    База данных, которая будет использоваться в источнике данных.

  • Схема задачи данных

    Можно изменить имя схемы задачи хранения данных. Имя по умолчанию: store.

  • Внутренняя схема

    Можно изменить имя внутренней схемы хранилища. Имя по умолчанию: store__internal.

  • Префикс для всех таблиц и видов

    Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.

    Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных.
  • Материализованные

    На свое усмотрение можно создавать только виды, в которых преобразования выполняются в реальном времени (Нематериализованные, либо создавать и таблицы и виды (Материализованные).

  • История

    Чтобы упростить воссоздание данных в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные об изменениях. Используйте виды истории и виды истории в реальном времени, чтобы просматривать исторические данные.

Параметры времени выполнения

  • Параллельное выполнение

    Позволяет задать максимальное число подключений для передачи данных в режиме полной загрузки (число от 1 до 5).

  • Хранилище

    Имя облачного хранилища данных.

Ограничения

  • Если выбрано Нематериализованные, нельзя изменить типы данных в задаче преобразования данных.

  • Нематериализованные наборы данных на основе SQL предоставляют только полный набор результатов, инкрементная фильтрация не поддерживается. Нематериализованные наборы данных на основе SQL также предоставляют только текущие данные и не хранят исторические записи.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!