Преобразование данных
Вы можете создавать многократно используемые преобразования данных на основе правил как часть вашего конвейера данных. Вы можете выполнять преобразования в рамках адаптации данных или создавать многократно используемые задачи данных преобразования. Вы можете выполнять преобразования на уровне строк, включать преобразования SQL и проектировать сложные потоки преобразования. Полученные наборы данных могут быть материализованы в виде таблиц или созданы в виде представлений, которые выполняют преобразования на лету.
-
Вы можете выполнять явные преобразования наборов данных или создавать глобальные правила, которые преобразуют несколько наборов данных. Вы также можете отфильтровать набор данных, чтобы создать подмножество строк.
-
Вы можете добавлять преобразования SQL. Преобразование SQL позволяет ввести запрос SQL SELECT в конвейер для определения сложных или простых преобразований.
-
Вы можете добавлять визуальные потоки преобразования с источниками, обработчиками и целями для определения сложных или простых преобразований.
Задача данных преобразования содержит три представления:
-
Преобразование
В этом представлении отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.
-
Наборы данных
В этом представлении отображаются все базовые преобразования в наборах данных, такие как фильтрация данных или добавление столбцов, а также правила для выполнения глобальных преобразований.
-
Модель
Это представление позволяет создать модель данных со связями между включенными наборами данных. Для получения дополнительной информации см. Создание модели данных.
Помимо хранения таблиц в хранилище данных, их также можно хранить в виде таблиц Iceberg, которые управляются платформой данных. В настоящее время эта возможность доступна только для проектов Snowflake. Это возможно, если выбрать таблицы Iceberg, управляемые Snowflake, в разделе Тип таблицы в параметрах задачи.
Создание задачи данных преобразования
Самый простой способ создать задачу данных преобразования — нажать ... в задаче данных хранения, а затем выбрать Преобразование данных.
Вы также можете нажать Создать в проекте и выбрать Преобразование данных. В этом случае необходимо определить, какую исходную задачу данных использовать.
-
Определите исходные данные и цели в разделе Преобразование.
Вы можете выполнить одно из следующих действий:
-
Выполнить преобразования наборов данных
Выберите исходные наборы данных и нажмите Добавить в цель, чтобы добавить их в Цель.
Затем вы можете выполнить базовые преобразования в наборах данных, такие как фильтрация данных или добавление столбцов, в разделе Наборы данных.
Для получения дополнительной информации см. Управление наборами данных.
-
Добавить преобразование SQL
Выберите исходные наборы данных и нажмите Добавить преобразование SQL.
Преобразование SQL позволяет ввести запрос SQL SELECT в конвейер для определения сложных или простых преобразований.
Для получения дополнительной информации см. Добавление преобразований SQL.
-
Добавить поток преобразования
Выберите исходные наборы данных и нажмите Добавить поток преобразования.
Конструктор потоков позволяет создать поток преобразования с источниками, обработчиками и целями для определения сложных или простых преобразований.
Для получения дополнительной информации см. Добавление потоков преобразования.
-
-
Вы также можете добавить дополнительные наборы данных из других задач данных хранения, нажав Выбрать исходные данные.
Вы можете добавить наборы данных из текущего проекта или из другого проекта. Чтобы добавить наборы данных из другого проекта:
-
У вас должна быть как минимум роль Может использовать в пространстве используемого проекта.
-
Оба проекта должны находиться на одной платформе данных.
Если выбранный проект находится под управлением версиями, вы можете выбрать, какую ветвь использовать в качестве источника. Для получения дополнительной информации о межпроектных конвейерах см. Создание межпроектных конвейеров.
-
-
После добавления нужных преобразований проверьте наборы данных, нажав Проверить наборы данных. Если при проверке обнаружены ошибки, исправьте их перед продолжением.
Для получения дополнительной информации см. Проверка и корректировка наборов данных.
-
Создайте модель данных
Нажмите Модель, чтобы установить связи между включенными наборами данных.
Для получения дополнительной информации см. Создание модели данных.
-
Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Это может занять некоторое время.
Вы можете следить за ходом выполнения в разделе Ход подготовки в нижней части экрана.
Примечание к информацииПрежде чем приступать к подготовке задачи, остановите все задачи, которые в данный момент следуют за ней. -
Когда статус изменится на Подготовлено, вы можете запустить задачу данных.
Нажмите ..., а затем Запустить.
Теперь задача данных начнет создавать наборы данных для преобразования данных.
Использование представления Преобразование
В разделе Преобразование отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.
-
Выберите преобразование, чтобы увидеть, какие исходные наборы данных используются и какие целевые наборы данных создаются.
-
Выберите источник, чтобы увидеть все преобразования, в которых он используется, и все полученные цели.
-
Выберите цель, чтобы увидеть, какие исходные наборы данных используются и какое преобразование создало этот целевой набор данных.
Представление преобразования в преобразовании

Вы можете изменить следующие настройки, нажав Параметры отображения:
-
Фильтровать по типу преобразования
Отображать только преобразования одного или двух типов преобразования.
-
Фильтр
Отображать все преобразования или только выбранное преобразование. Для включения этой опции необходимо выбрать преобразование.
-
Плотность
Выберите, хотите ли вы отображать преобразования с компактным макетом или с широким макетом, использующим больше места.
Использование представления Наборы данных
В разделе Наборы данных вы можете просматривать и редактировать все целевые наборы данных в задаче преобразования.
Для получения дополнительной информации см. также Управление наборами данных.
Добавление целевого набора данных
Вы можете добавить дополнительные целевые наборы данных в задачу преобразования.
-
Нажмите
.
-
Укажите Имя и, при необходимости, Описание для набора данных.
-
Выберите исходный набор данных из доступных в задаче наборов данных в поле Исходный набор данных.
Примечание к подсказкеВы можете выбрать Нет исходного набора данных, чтобы создать пустой набор данных, не подключенный ни к какому источнику. Вы можете добавлять столбцы в набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.
Теперь целевой набор данных добавлен.
Изменение исходного набора данных
Вы можете изменить исходный набор данных для целевого набора данных.
-
Нажмите
после Источник: [имя исходного набора данных].
-
Выберите другой исходный набор данных из доступных в задаче наборов данных в поле Исходный набор данных.
Примечание к подсказкеВы можете выбрать Нет исходного набора данных, чтобы отключить целевой набор данных от источника. Вы можете редактировать набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.
Добавление новых столбцов
Вы можете добавить новые столбцы в целевой набор данных.
-
Добавление нового столбца с нуля
Нажмите + Добавить.
Укажите имя столбца и задайте выражение для определения данных столбца.
Для получения дополнительной информации см. Добавление столбцов в набор данных.
-
Добавление столбца из источника
Нажмите
рядом с Добавить и выберите Добавить столбец из источника.
Выберите столбец из исходного набора данных.
Изменение порядка столбцов
Вы можете изменить порядковую позицию столбца.
-
Выберите столбец.
-
Нажмите
, а затем Изменить порядок.
-
Используйте стрелки для перемещения столбца вверх или вниз.
-
Закройте Изменить порядковый номер, когда будете готовы.
Создание правил преобразования
Вы можете создавать многократно используемые правила преобразования для выполнения глобального преобразования в наборах данных.
Для получения дополнительной информации о создании правил см. Создание правил для преобразования наборов данных.
Фильтрация набора данных
При необходимости вы можете отфильтровать данные, чтобы создать подмножество строк.
-
Нажмите
, а затем Фильтр.
Для получения дополнительной информации о фильтрации см. Фильтрация набора данных.
Планирование задачи преобразования
Вы можете запланировать периодическое обновление задачи преобразования. Вы можете установить расписание на основе времени или настроить запуск задачи после завершения выполнения задач входных данных.
Нажмите ... в задаче данных и выберите Планирование, чтобы создать расписание. Настройка планирования по умолчанию наследуется из настроек проекта. Для получения дополнительной информации о настройках по умолчанию см. Значения преобразования по умолчанию.
Вам всегда нужно устанавливать для параметра Планирование значение Вкл., чтобы включить расписание.
Расписания на основе времени
Вы можете использовать расписание на основе времени для запуска задачи независимо от того, когда обновляются различные источники ввода.
-
Выберите В определенное время в разделе Запуск задачи данных.
Вы можете установить ежечасное, ежедневное, еженедельное или ежемесячное расписание.
Расписания на основе событий
Вы можете использовать расписание на основе событий для запуска задачи после завершения выполнения задач входных данных.
-
Выберите По определенному событию в разделе Запуск задачи данных.
Вы можете выбрать, хотите ли вы запускать задачу, когда любая из входных задач успешно завершена, или когда любая из выбранных входных задач успешно завершена.
Мониторинг задачи преобразования
Вы можете отслеживать статус и ход выполнения задачи преобразования, нажав Мониторинг.
Для получения дополнительной информации см. Мониторинг индивидуальной задачи данных.
Перезагрузка данных
Вы можете выполнить ручную перезагрузку таблиц, если данные материализованы в виде физических таблиц. Это полезно, когда возникают проблемы с одной или несколькими таблицами.
-
Откройте задачу данных и выберите вкладку Мониторинг.
-
Выберите таблицы, которые вы хотите перезагрузить.
-
Нажмите Перезагрузить таблицы.
Перезагрузка произойдет при следующем запуске задачи. Процесс перезагрузки ведет себя по-разному в зависимости от настройки истории и типа преобразования каждого набора данных. Это означает, что процесс перезагрузки может отличаться для разных наборов данных в задаче данных.
-
Преобразования наборов данных перезагружаются путем усечения и загрузки.
-
Преобразования SQL и потоки преобразования можно перезагрузить путем усечения и загрузки или путем сравнения и применения. Лучшей практикой является сравнение и применение.
Перезагрузка набора данных на основе преобразования SQL или потока преобразования
Вы можете отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы, а выполняемые в данный момент перезагрузки будут завершены.
Последующие задачи будут перезагружены для применения изменений и во избежание использования устаревших данных.
Влияние на последующие задачи после перезагрузки задачи данных Преобразование данных

Влияние на последующие задачи зависит от типа выполненной операции перезагрузки и типа непосредственного последующего набора данных. Стандартная обработка означает, что набор данных будет реагировать и обрабатывать данные с использованием настроенного метода для конкретного набора данных.
Пример: Перезагрузка набора данных путем усечения и загрузки
-
Если следующий набор данных использует преобразования наборов данных, он будет перезагружен при следующем выполнении путем усечения и загрузки.
-
Если следующий набор данных является преобразованием SQL или потоком преобразования, он будет перезагружен с использованием сравнения и применения.
Перезагрузка набора данных без истории
В этом случае нет истории для учета. Чтобы уменьшить объем обработки в цели, перезагрузка выполняется путем:
-
Усечения таблиц.
-
Загрузки текущих данных из предшествующей задачи данных.
Последующие задачи будут перезагружены для применения изменений.
Перезагрузка набора данных с включенной историей
Перезагрузка выполняется путем:
-
Усечения текущих, предыдущих таблиц и таблиц изменений.
-
Загрузки данных из предшествующей задачи данных, включая предыдущие таблицы.
Перезагрузка набора данных на основе преобразования SQL или потока преобразования
-
Усечь и перезагрузить
Примечание к информацииЭта опция может привести к потере истории.-
Усечения текущих таблиц и таблиц изменений.
-
Выполнения запроса и его загрузки в текущие таблицы.
-
-
Перезагрузить и сравнить
-
Выполнения запроса и его сравнения с текущими таблицами.
-
Добавления изменений.
-
Удаление задачи
Вы можете удалить задачу данных, если она не запущена и нет зависимостей от последующих задач в том же проекте.
-
В представлении проекта конвейера проекта нажмите
на задаче и выберите Удалить.
Артефакты (таблицы и виды), созданные задачей, также будут удалены, если вы не выберете их сохранение.
Просмотр информации о задаче
Нажмите на панели меню, чтобы просмотреть информацию о задаче, например:
-
Владелец
-
Пространство
-
Платформа данных
-
Идентификатор проекта
-
Идентификатор выполнения задачи данных
Настройки преобразования
Вы можете задать свойства для задачи данных преобразования.
-
Нажмите Настройки.
Общие настройки
-
База данных
База данных для использования в источнике данных.
-
Схема задачи
Вы можете изменить имя схемы задачи данных. Имя по умолчанию — это имя задачи.
-
Внутренняя схема
Вы можете изменить имя внутренней схемы хранения. Имя по умолчанию — это имя задачи с добавлением "__internal".
-
Использование заглавных букв в имени схемы по умолчанию
Вы можете установить использование заглавных букв по умолчанию для всех имен схем. Если ваша база данных настроена на принудительное использование заглавных букв, эта опция не будет иметь эффекта.
- Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
Материализовано
Вы можете выбрать создание только представлений, которые выполняют преобразования на лету (Нематериализовано), или создание как таблиц, так и представлений (Материализовано).
-
Хранилище исторических данных (тип 2)
Вы можете сохранять исторические данные об изменениях, чтобы легко воссоздавать данные в том виде, в котором они были в определенный момент времени. Вы можете использовать представления истории и представления живой истории для просмотра исторических данных.
-
Опубликовать в каталоге
Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.
Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.
Настройки времени выполнения
-
Параллельное выполнение
Вы можете установить максимальное количество подключений для полных загрузок на число от 1 до 5.
-
Хранилище
Имя облачного хранилища данных.
Настройки типа представления
Настройки типа представления применимы только для Snowflake.
-
Стандартные представления
Используйте стандартные представления в большинстве случаев.
-
Безопасные представления Snowflake
Используйте безопасные представления Snowflake для представлений, предназначенных для обеспечения конфиденциальности данных или защиты конфиденциальной информации, например, представлений, созданных для ограничения доступа к конфиденциальным данным, которые не должны быть доступны всем пользователям базовых таблиц.
Примечание к информации Безопасные представления Snowflake могут выполняться медленнее, чем стандартные представления.
Настройки типа таблицы
Эти параметры доступны только в проектах, где в качестве платформы данных используется Snowflake.
-
Тип таблицы
Можно выбрать, какой тип таблицы использовать.
-
Таблицы Snowflake
-
Таблицы Iceberg под управлением Snowflake
Необходимо задать имя по умолчанию для внешнего тома в поле Внешний том Snowflake.
-
-
Папка облачного хранилища для использования
Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточной области.
-
Папка по умолчанию
Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.
-
Корневая папка
Данные сохраняются в корневой папке хранилища.
-
Папка
Укажите имя используемой папки.
-
-
Синхронизировать с Snowflake Open Catalog
Включите этот параметр, чтобы позволить Snowflake Open Catalog управлять файлами в облачном хранилище файлов.
Лучшие практики
-
Невозможно изменить источник для набора данных в витрине данных, если были добавлены факты и измерения. Если вы хотите быть гибкими, вы можете добавить предшествующую задачу преобразования с нематериализованными представлениями, которую можно использовать для изменения источников, а также для наличия модели для всех исходных задач.
Ограничения
-
Невозможно изменить типы данных в задаче данных преобразования, если выбрана опция Нематериализовано.
-
Происхождение на уровне полей недоступно для наборов данных, созданных в преобразованиях SQL или потоках преобразования.
-
Использование Добавить в цель для чтения из задачи Открытое озеро данных QlikЗеркало, для которой установлено значение Только добавление, не поддерживается.
В качестве обходного пути вы можете читать данные с помощью преобразования SQL или потока преобразования.