Преобразование данных
В рамках конвейера данных можно создать преобразования данных на основе правил для многократного использования. Преобразования выполняются также в процессах подключения данных и для создания многократно используемых задач преобразования данных. Можно выполнять преобразования на уровне строк и создавать наборы данных, которые материализуются как таблицы или создаются как виды, выполняющие преобразования в реальном времени.
-
Можно выполнять явные преобразования набора данных или создавать глобальные правила, которые преобразуют несколько наборов данных. Наборы данных можно фильтровать, чтобы получить подмножество строк.
-
Можно добавлять преобразования SQL. Преобразование SQL позволяет ввести запрос SQL SELECT (ВЫБРАТЬ) в конвейер для определения сложных или простых преобразований.
-
Можно добавлять визуальные потоки преобразований, используя источники, процессоры и цели для определения сложных или простых преобразований.
Задача преобразования данных имеет три вида:
-
Преобразование
В этом виде отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.
-
Наборы данных
В этом виде отображаются все основные преобразования наборов данных, такие как фильтрация данных или добавление столбцов, а также правила для выполнения глобальных преобразований.
-
Модель
Этот вид данных позволяет создать модель данных со связями между включенными наборами данных.
Создание задачи преобразования данных
Самый простой способ создать задачу преобразования данных — нажать ... на задаче хранения данных и выбрать Преобразование данных.
Кроме того, в проекте можно нажать Добавить новое и выбрать Преобразование данных. В этом случае нужно указать исходную задачу данных.
-
Определите исходные данные и цели в окне Преобразование.
Также можно:
-
Выполнение преобразований наборов данных
Выберите исходные наборы данных и нажмите Добавить в цель, чтобы добавить их в список Цель.
Можно выполнять базовые преобразования наборов данных, например фильтровать данные или добавлять столбцы, в окне Наборы данных.
Для получения дополнительной информации см. раздел Управление наборами данных.
-
Добавление преобразования SQL
Выберите исходные наборы данных и щелкните Добавить преобразование SQL.
Преобразование SQL позволяет ввести запрос SQL SELECT (ВЫБРАТЬ) в конвейер для определения сложных или простых преобразований.
Для получения дополнительной информации см. раздел Добавление преобразований SQL.
-
Добавление потока преобразования
Выберите исходные наборы данных и щелкните Добавить поток преобразования.
Конструктор потоков позволяет создать поток преобразования, используя источники, процессоры и цели для определения сложных или простых преобразований.
Для получения дополнительной информации см. раздел Добавление потоков преобразования.
Примечание к подсказкеЧтобы добавить другие наборы данных из других задач хранения данных, щелкните Выберите исходные данные. -
-
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Прежде чем продолжить, необходимо устранить ошибки, обнаруженные при проверке.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
-
Создание модели данных
Нажмите модель, чтобы задать связи между наборами данных модели.
Для получения дополнительной информации см. раздел Создание модели данных.
-
Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Эта операция может занять некоторое время.
Прогресс можно отслеживать с помощью индикатора Ход подготовки в нижней части экрана.
-
Задачу данных можно запустить, если она имеет статус Подготовлена.
Нажмите ..., затем Выполнить.
Теперь задача данных начнет создавать наборы данных, предназначенные для преобразования.
Использование вида Преобразование
В виде Преобразование отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.
-
Выберите преобразование, чтобы увидеть, какие исходные наборы данных используются и какие целевые наборы данных создаются.
-
Выберите источник, чтобы увидеть все преобразования, в которых он используется, и все результирующие цели.
-
Выберите цель, чтобы увидеть, какие исходные наборы данных используются и в результате какого преобразования создан этот целевой набор данных.
Можно изменить следующие параметры, щелкнув Параметры отображения:
-
Фильтр по типу преобразования
Отображаются только преобразования одного или двух типов.
-
Фильтр
Отображаются все преобразования или только выбранное преобразование. Необходимо выбрать преобразование, чтобы включить этот параметр.
-
Плотность
Выберите, если требуется отображать преобразования с использованием компактного макета или широкого макета, который занимает больше места.
Использование вида Наборы данных
В разделе Наборы данных можно просматривать и редактировать все целевые наборы данных в задаче преобразования.
Для получения дополнительных сведений также см. раздел Управление наборами данных.
Добавление целевого набора данных
В задачу преобразования можно добавить дополнительные целевые наборы данных.
-
Нажмите Добавить набор данных.
-
Укажите Имя и, по желанию, Описание набора данных.
-
Выберите исходный набор данных из числа наборов данных, доступных в задаче в списке Исходный набор данных.
Примечание к подсказкеМожно выбрать Исходный набор данных, чтобы создать пустой набор данных, не подключенный ни к одному источнику. Можно добавить столбцы в набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.
Целевой набор данных добавлен.
Изменение исходного набора данных
Можно изменить исходный набор данных для целевого набора данных.
-
Щелкните после Источник: [имя исходного набора данных].
-
Выберите другой исходный набор данных из числа наборов данных, доступных в задаче в списке Исходный набор данных.
Примечание к подсказкеМожно выбрать Отсутствует исходный набор данных, чтобы отключить целевой набор данных от источника. Можно внести изменения в набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.
Добавление новых столбцов
Можно добавить новые столбцы в целевой набор данных.
-
Добавление нового столбца с нуля
Щелкните команду + Добавить.
Укажите имя столбца и задайте выражение для определения данных столбца.
Для получения дополнительной информации см. раздел Добавление столбцов в набор данных.
-
Добавление столбца из источника
Щелкните рядом с командой Добавить и выберите Добавить столбец из источника.
Выберите столбец из исходного набора данных.
Переупорядочивание столбцов
Можно изменить порядковое положение столбца.
-
Выберите столбец.
-
Щелкните и выберите Изменить порядок.
-
Переместите столбец вверх или вниз с помощью стрелок.
-
По окончании закройте окно Изменить порядковый номер.
Создание правил преобразования
Можно создать многократно используемые правила для выполнения глобальных преобразований в наборах данных.
Для получения дополнительной информации о создании правил. см. раздел Создание правил для преобразования наборов данных.
Фильтрация набора данных
При необходимости можно отфильтровать данные для создания подмножества строк.
-
Щелкните и выберите Фильтр.
Для получения дополнительной информации о фильтрации см. раздел Фильтрация набора данных.
Планирование задачи преобразования
Можно запланировать периодическое обновление задачи преобразования. Можно задать повременный график или настроить выполнение задачи после завершения задач ввода данных.
Нажмите на ... рядом с задачей данных и выберите Планирование, чтобы создать график. Настройка планирования по умолчанию наследуется из параметров проекта. Для получения дополнительной информации о настройках по умолчанию см. раздел Значения по умолчанию для преобразования.
Чтобы активировать график, необходимо, чтобы переключатель Планирование всегда находился в положении Вкл.
Повременные графики
Повременный график можно использовать для выполнения задачи независимо от времени обновления различных источников ввода.
-
Выберите значение В определенное время в поле Запустить задачу данных.
Можно настроить ежечасный, ежедневный, еженедельный или ежемесячный график.
Графики на основе событий
Можно использовать график на основе событий, чтобы выполнять задачу после завершения задач ввода данных.
-
Выберите значение При определенном событии в поле Запустить задачу данных.
Можно выбрать, как требуется выполнить задачу: после успешного завершения любой задачи ввода данных или после успешного завершения любой выборки задач ввода данных.
Отслеживание задачи преобразования
Для проверки состояния и хода выполнения задачи преобразования нажмите Мониторинг.
Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных.
Перезагрузка данных
Таблицы можно перезагружать вручную, если данные материализованы как физические таблицы. Это полезно, когда возникают проблемы в одной или нескольких таблицах.
-
Откройте задачу данных и перейдите вкладку Мониторинг.
-
Выберите таблицы, которые необходимо перезагрузить.
-
Щелкните Перезагрузить таблицы.
Перезагрузка происходит при следующем запуске задачи. Процесс перезагрузки протекает по-разному, в зависимости от настройки истории и от типа преобразования в каждом наборе данных. Это означает, что процесс перезагрузки может отличаться для разных наборов данных в задаче данных.
-
Преобразования набора данных перезагружаются методом усечения и загрузки.
-
Преобразования SQL и потоки преобразования можно перезагрузить путем усечения и загрузки или путем сравнения и применения. Рекомендуется использовать метод «Сравнить и применить».
Перезагрузка набора данных на основе преобразования SQL или потока преобразования
Можно отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы. Перезагрузки, выполняемые в данный момент, будут завершены.
Нижестоящие задачи будут перезагружены для применения изменений и предотвращения датирования задним числом.
Воздействие на нижестоящие объекты зависит от типа выполненной операции перезагрузки и от ближайшего нижестоящего типа набора данных. Стандартная обработка означает, что набор данных будет реагировать и обрабатывать данные, используя метод, настроенный для этого конкретного набора данных.
Пример: Перезагрузка набора данных путем усечения и загрузки
-
Если следующий набор данных использует преобразования набора данных, он будет перезагружен при следующем выполнении методом усечения и загрузки.
-
Если следующий набор данных представляет собой преобразование SQL или поток преобразования, он будет перезагружен методом сравнения и применения.
Перезагрузка набора данных без истории
В данном случае история не учитывается по причине ее отсутствия. Чтобы сократить обработку в целевом местоположении, перезагрузка выполняется в следующем порядке:
-
Таблицы усекаются.
-
Из вышестоящей задачи данных загружаются текущие данные.
Нижестоящие задачи будут перезагружены для применения изменений.
Перезагрузка набора данных с включенной историей
Перезагрузка выполняется следующим образом:
-
Усекаются текущие таблицы, предшествующие таблицы и таблицы изменений.
-
Загружаются данных из вышестоящей задачи данных, включая предшествующие таблицы.
Перезагрузка набора данных на основе преобразования SQL или потока преобразования
-
Усечение и перезагрузка
Примечание к информацииИспользование этого варианта может привести к потере исторических данных.-
Усекаются текущие таблицы и таблицы изменений.
-
Выполняется запрос, его результаты загружаются в текущие таблицы.
-
-
Перезагрузка и сравнение
-
Выполняется запрос, его результаты сравниваются с текущими таблицами.
-
Добавляются изменения.
-
Параметры преобразования
Можно задать свойства задачи преобразования данных.
-
Щелкните Параметры.
Общие параметры
-
База данных
База данных, которая будет использоваться в источнике данных.
-
Схема задачи
Можно изменить имя схемы задачи данных. В качестве имени по умолчанию используется имя задачи.
-
Внутренняя схема
Можно изменить имя внутренней схемы хранилища. В качестве имени по умолчанию используется имя задачи, к которому добавлена строка «_internal».
- Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
Материализованные
На свое усмотрение можно создавать только виды, в которых преобразования выполняются в реальном времени (Нематериализованные, либо создавать и таблицы и виды (Материализованные).
-
История
Чтобы упростить воссоздание данных в том виде, в каком они выглядели в определенный момент времени, сохраняйте исторические данные об изменениях. Используйте виды истории и виды истории в реальном времени, чтобы просматривать исторические данные.
Параметры времени выполнения
-
Параллельное выполнение
Позволяет задать максимальное число подключений для полной загрузки (число от 1 до 5).
-
Хранилище
Имя облачного хранилища данных.
Параметры каталога
-
Опубликовать в каталоге
Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.
Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.
Ограничения
-
Если выбрано Нематериализованные, нельзя изменить типы данных в задаче преобразования данных.
-