Преобразование данных | Qlik Cloud Справка
Перейти к основному содержимому Перейти к дополнительному содержимому

Преобразование данных

Вы можете создавать многократно используемые преобразования данных на основе правил как часть вашего конвейера данных. Вы можете выполнять преобразования в рамках адаптации данных или создавать многократно используемые задачи данных преобразования. Вы можете выполнять преобразования на уровне строк, включать преобразования SQL и проектировать сложные потоки преобразования. Полученные наборы данных могут быть материализованы в виде таблиц или созданы в виде представлений, которые выполняют преобразования на лету.

Примечание к информацииРасширенные преобразования доступны по подписке Qlik Talend Cloud Premium или Qlik Talend Cloud Enterprise.
  • Вы можете выполнять явные преобразования наборов данных или создавать глобальные правила, которые преобразуют несколько наборов данных. Вы также можете отфильтровать набор данных, чтобы создать подмножество строк.

  • Вы можете добавлять преобразования SQL. Преобразование SQL позволяет ввести запрос SQL SELECT в конвейер для определения сложных или простых преобразований.

  • Вы можете добавлять визуальные потоки преобразования с источниками, обработчиками и целями для определения сложных или простых преобразований.

Примечание к информацииЗадачи данных выполняются в контексте владельца проекта, к которому они относятся. Для получения дополнительной информации о необходимых ролях и разрешениях см. раздел Роли и разрешения в пространстве данных.

Задача данных преобразования содержит три представления:

  • Преобразование

    В этом представлении отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.

  • Наборы данных

    В этом представлении отображаются все базовые преобразования в наборах данных, такие как фильтрация данных или добавление столбцов, а также правила для выполнения глобальных преобразований.

  • Модель

    Это представление позволяет создать модель данных со связями между включенными наборами данных. Для получения дополнительной информации см. Создание модели данных.

Помимо хранения таблиц в хранилище данных, их также можно хранить в виде таблиц Iceberg, которые управляются платформой данных. В настоящее время эта возможность доступна только для проектов Snowflake. Это возможно, если выбрать таблицы Iceberg, управляемые Snowflake, в разделе Тип таблицы в параметрах задачи.

Создание задачи данных преобразования

Самый простой способ создать задачу данных преобразования — нажать ... в задаче данных хранения, а затем выбрать Преобразование данных.

Вы также можете нажать Создать в проекте и выбрать Преобразование данных. В этом случае необходимо определить, какую исходную задачу данных использовать.

  1. Определите исходные данные и цели в разделе Преобразование.

    Вы можете выполнить одно из следующих действий:

    • Выберите исходные наборы данных и нажмите Добавить в цель, чтобы добавить их в Цель.

      Затем вы можете выполнить базовые преобразования в наборах данных, такие как фильтрация данных или добавление столбцов, в разделе Наборы данных.

      Для получения дополнительной информации см. Управление наборами данных.

    • Выберите исходные наборы данных и нажмите Добавить преобразование SQL.

      Преобразование SQL позволяет ввести запрос SQL SELECT в конвейер для определения сложных или простых преобразований.

      Для получения дополнительной информации см. Добавление преобразований SQL.

    • Выберите исходные наборы данных и нажмите Добавить поток преобразования.

      Конструктор потоков позволяет создать поток преобразования с источниками, обработчиками и целями для определения сложных или простых преобразований.

      Для получения дополнительной информации см. Добавление потоков преобразования.

  2. Вы также можете добавить дополнительные наборы данных из других задач данных хранения, нажав Выбрать исходные данные.

    Вы можете добавить наборы данных из текущего проекта или из другого проекта. Чтобы добавить наборы данных из другого проекта:

    • У вас должна быть как минимум роль Может использовать в пространстве используемого проекта.

    • Оба проекта должны находиться на одной платформе данных.

    Если выбранный проект находится под управлением версиями, вы можете выбрать, какую ветвь использовать в качестве источника. Для получения дополнительной информации о межпроектных конвейерах см. Создание межпроектных конвейеров.

  3. После добавления нужных преобразований проверьте наборы данных, нажав Проверить наборы данных. Если при проверке обнаружены ошибки, исправьте их перед продолжением.

    Для получения дополнительной информации см. Проверка и корректировка наборов данных.

  4. Создайте модель данных

    Нажмите Модель, чтобы установить связи между включенными наборами данных.

    Для получения дополнительной информации см. Создание модели данных.

  5. Нажмите Подготовить, чтобы подготовить задачу данных и все необходимые артефакты. Это может занять некоторое время.

    Вы можете следить за ходом выполнения в разделе Ход подготовки в нижней части экрана.

    Примечание к информацииПрежде чем приступать к подготовке задачи, остановите все задачи, которые в данный момент следуют за ней.
  6. Когда статус изменится на Подготовлено, вы можете запустить задачу данных.

    Нажмите ..., а затем Запустить.

Теперь задача данных начнет создавать наборы данных для преобразования данных.

Примечание к информацииНевозможно изменить включенные наборы данных после начала генерации наборов данных.

Использование представления Преобразование

В разделе Преобразование отображаются все преобразования для визуализации потока от исходного набора данных к целевому набору данных.

  • Выберите преобразование, чтобы увидеть, какие исходные наборы данных используются и какие целевые наборы данных создаются.

  • Выберите источник, чтобы увидеть все преобразования, в которых он используется, и все полученные цели.

  • Выберите цель, чтобы увидеть, какие исходные наборы данных используются и какое преобразование создало этот целевой набор данных.

Представление преобразования в преобразовании

Представление преобразования в преобразовании

Вы можете изменить следующие настройки, нажав Параметры отображения:

  • Фильтровать по типу преобразования

    Отображать только преобразования одного или двух типов преобразования.

  • Фильтр

    Отображать все преобразования или только выбранное преобразование. Для включения этой опции необходимо выбрать преобразование.

  • Плотность

    Выберите, хотите ли вы отображать преобразования с компактным макетом или с широким макетом, использующим больше места.

Использование представления Наборы данных

В разделе Наборы данных вы можете просматривать и редактировать все целевые наборы данных в задаче преобразования.

Для получения дополнительной информации см. также Управление наборами данных.

Добавление целевого набора данных

Вы можете добавить дополнительные целевые наборы данных в задачу преобразования.

  1. Нажмите Добавить набор данных.

  2. Укажите Имя и, при необходимости, Описание для набора данных.

  3. Выберите исходный набор данных из доступных в задаче наборов данных в поле Исходный набор данных.

    Примечание к подсказкеВы можете выбрать Нет исходного набора данных, чтобы создать пустой набор данных, не подключенный ни к какому источнику. Вы можете добавлять столбцы в набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.

Теперь целевой набор данных добавлен.

Изменение исходного набора данных

Вы можете изменить исходный набор данных для целевого набора данных.

  1. Нажмите редактировать после Источник: [имя исходного набора данных].

  2. Выберите другой исходный набор данных из доступных в задаче наборов данных в поле Исходный набор данных.

    Примечание к подсказкеВы можете выбрать Нет исходного набора данных, чтобы отключить целевой набор данных от источника. Вы можете редактировать набор данных во время проектирования, но перед подготовкой задачи необходимо подключиться к исходному набору данных.

Добавление новых столбцов

Вы можете добавить новые столбцы в целевой набор данных.

  • Нажмите + Добавить.

    Укажите имя столбца и задайте выражение для определения данных столбца.

    Для получения дополнительной информации см. Добавление столбцов в набор данных.

  • Нажмите вниз рядом с Добавить и выберите Добавить столбец из источника.

    Выберите столбец из исходного набора данных.

Изменение порядка столбцов

Вы можете изменить порядковую позицию столбца.

  1. Выберите столбец.

  2. Нажмите дополнительно, а затем Изменить порядок.

  3. Используйте стрелки для перемещения столбца вверх или вниз.

  4. Закройте Изменить порядковый номер, когда будете готовы.

Создание правил преобразования

Вы можете создавать многократно используемые правила преобразования для выполнения глобального преобразования в наборах данных.

Для получения дополнительной информации о создании правил см. Создание правил для преобразования наборов данных.

Примечание к подсказкеВы можете просмотреть эффекты правил, выбрав Показать эффекты правил. Вы не можете вносить изменения в наборы данных, когда включена опция Показать эффекты правил.

Фильтрация набора данных

При необходимости вы можете отфильтровать данные, чтобы создать подмножество строк.

  • Нажмите дополнительно, а затем Фильтр.

Для получения дополнительной информации о фильтрации см. Фильтрация набора данных.

Планирование задачи преобразования

Вы можете запланировать периодическое обновление задачи преобразования. Вы можете установить расписание на основе времени или настроить запуск задачи после завершения выполнения задач входных данных.

Нажмите ... в задаче данных и выберите Планирование, чтобы создать расписание. Настройка планирования по умолчанию наследуется из настроек проекта. Для получения дополнительной информации о настройках по умолчанию см. Значения преобразования по умолчанию.

Вам всегда нужно устанавливать для параметра Планирование значение Вкл., чтобы включить расписание.

Примечание к информацииЕсли все наборы данных в задаче являются нематериализованными, запускать нечего, так как преобразование выполняется на лету с помощью представлений. Вы все равно можете создать расписание для нематериализованной задачи преобразования, которая будет запускаться при выполнении условия расписания. Задача завершится немедленно, что может запустить последующую задачу, например, витрину данных. Это позволяет создать расписание конвейера на основе событий, которое включает нематериализованные преобразования без прерывания потока конвейера.

Расписания на основе времени

Вы можете использовать расписание на основе времени для запуска задачи независимо от того, когда обновляются различные источники ввода.

  • Выберите В определенное время в разделе Запуск задачи данных.

Вы можете установить ежечасное, ежедневное, еженедельное или ежемесячное расписание.

Расписания на основе событий

Вы можете использовать расписание на основе событий для запуска задачи после завершения выполнения задач входных данных.

  • Выберите По определенному событию в разделе Запуск задачи данных.

Вы можете выбрать, хотите ли вы запускать задачу, когда любая из входных задач успешно завершена, или когда любая из выбранных входных задач успешно завершена.

Примечание к информацииЗадача не будет запущена, если какая-либо входная или последующая задача выполняется в момент срабатывания расписания. Задача пропускается до следующего запланированного запуска.

Мониторинг задачи преобразования

Вы можете отслеживать статус и ход выполнения задачи преобразования, нажав Мониторинг.

Для получения дополнительной информации см. Мониторинг индивидуальной задачи данных.

Перезагрузка данных

Вы можете выполнить ручную перезагрузку таблиц, если данные материализованы в виде физических таблиц. Это полезно, когда возникают проблемы с одной или несколькими таблицами.

Примечание к информацииЕсли наборы данных нематериализованы, необходимо перезагрузить исходные наборы данных в предшествующей задаче данных, чтобы обновить данные.
  1. Откройте задачу данных и выберите вкладку Мониторинг.

  2. Выберите таблицы, которые вы хотите перезагрузить.

  3. Нажмите Перезагрузить таблицы.

Перезагрузка произойдет при следующем запуске задачи. Процесс перезагрузки ведет себя по-разному в зависимости от настройки истории и типа преобразования каждого набора данных. Это означает, что процесс перезагрузки может отличаться для разных наборов данных в задаче данных.

Вы можете отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы, а выполняемые в данный момент перезагрузки будут завершены.

Последующие задачи будут перезагружены для применения изменений и во избежание использования устаревших данных.

Влияние на последующие задачи после перезагрузки задачи данных Преобразование данных

Эффекты перезагрузки преобразования для последующих задач

Влияние на последующие задачи зависит от типа выполненной операции перезагрузки и типа непосредственного последующего набора данных. Стандартная обработка означает, что набор данных будет реагировать и обрабатывать данные с использованием настроенного метода для конкретного набора данных.

Пример: Перезагрузка набора данных путем усечения и загрузки

  • Если следующий набор данных использует преобразования наборов данных, он будет перезагружен при следующем выполнении путем усечения и загрузки.

  • Если следующий набор данных является преобразованием SQL или потоком преобразования, он будет перезагружен с использованием сравнения и применения.

Перезагрузка набора данных без истории

В этом случае нет истории для учета. Чтобы уменьшить объем обработки в цели, перезагрузка выполняется путем:

  1. Усечения таблиц.

  2. Загрузки текущих данных из предшествующей задачи данных.

Последующие задачи будут перезагружены для применения изменений.

Перезагрузка набора данных с включенной историей

Перезагрузка выполняется путем:

  1. Усечения текущих, предыдущих таблиц и таблиц изменений.

  2. Загрузки данных из предшествующей задачи данных, включая предыдущие таблицы.

Перезагрузка набора данных на основе преобразования SQL или потока преобразования

  • Усечь и перезагрузить

    Примечание к информацииЭта опция может привести к потере истории.
    1. Усечения текущих таблиц и таблиц изменений.

    2. Выполнения запроса и его загрузки в текущие таблицы.

  • Перезагрузить и сравнить

    1. Выполнения запроса и его сравнения с текущими таблицами.

    2. Добавления изменений.

Примечание к информацииКогда набор данных на основе преобразования SQL или потока преобразования перезагружается из-за перезагрузки предшествующей задачи, он всегда перезагружается путем сравнения и применения. Если вы хотите усечь и перезагрузить его, необходимо выполнить специальную перезагрузку для этих таблиц. В этом случае вы также должны учитывать влияние на последующие таблицы.

Удаление задачи

Вы можете удалить задачу данных, если она не запущена и нет зависимостей от последующих задач в том же проекте.

  • В представлении проекта конвейера проекта нажмите Дополнительно на задаче и выберите Удалить.

Артефакты (таблицы и виды), созданные задачей, также будут удалены, если вы не выберете их сохранение.

Примечание к информацииИмейте в виду, что сохраненные вами артефакты больше не будут обновляться задачей.

Просмотр информации о задаче

Нажмите Сведения на панели меню, чтобы просмотреть информацию о задаче, например:

  • Владелец

  • Пространство

  • Платформа данных

  • Идентификатор проекта

  • Идентификатор выполнения задачи данных

Настройки преобразования

Вы можете задать свойства для задачи данных преобразования.

  • Нажмите Настройки.

Примечание к предупреждениюЕсли задача уже была запущена, изменение любой настройки, кроме настроек времени выполнения, потребует повторного создания наборов данных.

Общие настройки

  • База данных

    База данных для использования в источнике данных.

  • Схема задачи

    Вы можете изменить имя схемы задачи данных. Имя по умолчанию — это имя задачи.

  • Внутренняя схема

    Вы можете изменить имя внутренней схемы хранения. Имя по умолчанию — это имя задачи с добавлением "__internal".

  • Использование заглавных букв в имени схемы по умолчанию

    Вы можете установить использование заглавных букв по умолчанию для всех имен схем. Если ваша база данных настроена на принудительное использование заглавных букв, эта опция не будет иметь эффекта.

  • Префикс для всех таблиц и видов

    Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.

    Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных.
  • Материализовано

    Вы можете выбрать создание только представлений, которые выполняют преобразования на лету (Нематериализовано), или создание как таблиц, так и представлений (Материализовано).

  • Хранилище исторических данных (тип 2)

    Вы можете сохранять исторические данные об изменениях, чтобы легко воссоздавать данные в том виде, в котором они были в определенный момент времени. Вы можете использовать представления истории и представления живой истории для просмотра исторических данных.

  • Опубликовать в каталоге

    Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.

    Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.

Настройки времени выполнения

  • Параллельное выполнение

    Вы можете установить максимальное количество подключений для полных загрузок на число от 1 до 5.

  • Хранилище

    Имя облачного хранилища данных.

Настройки типа представления

Настройки типа представления применимы только для Snowflake.

  • Стандартные представления

    Используйте стандартные представления в большинстве случаев.

  • Безопасные представления Snowflake

    Используйте безопасные представления Snowflake для представлений, предназначенных для обеспечения конфиденциальности данных или защиты конфиденциальной информации, например, представлений, созданных для ограничения доступа к конфиденциальным данным, которые не должны быть доступны всем пользователям базовых таблиц.

    Примечание к информации Безопасные представления Snowflake могут выполняться медленнее, чем стандартные представления.

Настройки типа таблицы

Эти параметры доступны только в проектах, где в качестве платформы данных используется Snowflake.

  • Тип таблицы

    Можно выбрать, какой тип таблицы использовать.

    • Таблицы Snowflake

    • Таблицы Iceberg под управлением Snowflake

      Необходимо задать имя по умолчанию для внешнего тома в поле Внешний том Snowflake.

  • Папка облачного хранилища для использования

    Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточной области.

    • Папка по умолчанию

      Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.

    • Корневая папка

      Данные сохраняются в корневой папке хранилища.

    • Папка

      Укажите имя используемой папки.

  • Синхронизировать с Snowflake Open Catalog

    Включите этот параметр, чтобы позволить Snowflake Open Catalog управлять файлами в облачном хранилище файлов.

Лучшие практики

  • Невозможно изменить источник для набора данных в витрине данных, если были добавлены факты и измерения. Если вы хотите быть гибкими, вы можете добавить предшествующую задачу преобразования с нематериализованными представлениями, которую можно использовать для изменения источников, а также для наличия модели для всех исходных задач.

Ограничения

  • Невозможно изменить типы данных в задаче данных преобразования, если выбрана опция Нематериализовано.

  • Происхождение на уровне полей недоступно для наборов данных, созданных в преобразованиях SQL или потоках преобразования.

  • Использование Добавить в цель для чтения из задачи Открытое озеро данных QlikЗеркало, для которой установлено значение Только добавление, не поддерживается.

    В качестве обходного пути вы можете читать данные с помощью преобразования SQL или потока преобразования.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!