Создание проекта конвейера данных | Qlik Cloud Справка
Перейти к основному содержимому Перейти к дополнительному содержимому

Создание проекта конвейера данных

Вы можете создать конвейер данных для выполнения всей интеграции данных в рамках проекта с помощью задач данных. Загрузка перемещает данные в проект из источников данных, которые находятся локально или в облаке, и сохраняет данные в готовых к использованию наборах данных. Вы можете загружать данные в хранилище данных или в Открытое озеро данных Qlik.

При загрузке данных в хранилище данных вы также можете выполнять преобразования и создавать витрины данных для использования сгенерированных и преобразованных наборов данных. Конвейер данных может быть простым и линейным, или это может быть сложный конвейер, потребляющий несколько источников данных и генерирующий множество выходных данных.

Примечание к информацииПроекты конвейеров данных не поддерживают предварительные версии коннекторов для приложений SaaS. Чтобы узнать, находится ли ваш коннектор в предварительной версии, см. справку по коннектору.

Все задачи данных будут созданы в том же пространстве, что и проект, к которому они принадлежат.

Вы также можете просматривать происхождение для отслеживания данных и преобразований данных в обратном направлении до исходного источника, а также выполнять анализ влияния, который показывает перспективное, нисходящее представление зависимостей задачи данных, набора данных или поля. Для получения дополнительной информации см. Работа с происхождением и анализом воздействия в Интеграция данных.

Примечание к информацииЧтобы создать проект конвейера, у вас должна быть пользовательская роль с разрешением Проекты конвейеров, или это разрешение должно быть включено в настройках Пользователь по умолчанию. Для получения дополнительной информации см. Разрешения в роли User Default и в пользовательских ролях.

Ввод данных в хранилище данных

Это включает промежуточное хранение данных в промежуточной области, а затем сохранение наборов данных в облачном хранилище данных. Задачи данных промежуточного хранения и хранения создаются за один шаг. При необходимости вы также можете выполнять промежуточное хранение и хранение с помощью отдельных задач.

Подключение данных к Открытое озеро данных Qlik

Создайте проект конвейера Открытое озеро данных Qlik для копирования данных из любого поддерживаемого источника в формат открытых таблиц Iceberg. К таблицам можно получать доступ и выполнять запросы из аналитического механизма вашего облачного хранилища данных без дублирования данных с помощью задачи данных зеркалирования.

Регистрация данных, которые уже существуют на платформе данных

Зарегистрируйте данные, которые уже существуют на платформе данных, для курирования и преобразования данных, а также создания витрин данных. Это позволяет использовать данные, загруженные с помощью других инструментов, отличных от Qlik Talend Data Integration, например, Qlik Replicate или Stitch.

Преобразование данных

Создавайте многократно используемые преобразования на уровне строк для загруженных данных на основе правил и пользовательского SQL. Это создает задачу Преобразование данных.

Создание витрин данных и управление ими

Создайте витрину данных для использования ваших наборов данных. Это создает задачу данных Витрина данных.

Создание витрины знаний

Создайте витрину знаний для встраивания и хранения ваших структурированных и неструктурированных данных в векторной базе данных. Это создает задачу данных Витрина знаний.

Целевые платформы данных

Проект связан с платформой данных, которая используется в качестве цели для всех выходных данных.

Для получения дополнительной информации о поддерживаемых платформах данных см. Настройка подключений к целям.

Видео-введение в проекты

video thumbnail

Пример создания проекта

В следующем примере выполняется загрузка данных, преобразование данных и создание витрины данных. Это создаст простой линейный конвейер данных, который вы можете расширить, загрузив больше источников данных, создав больше преобразований и добавив сгенерированные задачи данных в витрину данных.

Пример линейного конвейера данных в проекте

Блок-схема конвейеров данных
  1. В разделе Интеграция данных > Проекты конвейеров нажмите Создать новый > Проект.

    1. Введите имя и описание для проекта.

      Примечание к информацииЕсли вы позже включите контроль версий для проекта, вы не сможете изменить имя проекта, пока он находится под контролем версий.
    2. Выберите пространство для создания проекта. Все задачи данных будут созданы в пространстве проекта, к которому они принадлежат.

    3. Выберите Конвейер данных в Вариант использования.
    4. Выберите, какую платформу данных использовать в проекте.

    5. Выберите подключение к облачному хранилищу данных, которое вы хотите использовать в проекте. Оно будет использоваться для промежуточного хранения файлов данных и хранения наборов данных и представлений. Если вы еще не подготовили подключение, создайте его с помощью Создать новое.

      • Если вы выбрали Google BigQuery, Databricks или Microsoft Azure Synapse Analytics в качестве платформы данных, вам также необходимо подключиться к промежуточной области.

      • Если вы выбрали Snowflake в качестве платформы данных, вы можете выбрать промежуточное хранение данных в облачном хранилище. См. Промежуточное хранение данных в хранилище в озере данных.

      • Если вы выбрали Qlik Cloud в качестве платформы данных:

        Вы можете хранить данные в управляемом хранилище Qlik или в собственном управляемом блоке Amazon S3. Если вы хотите использовать собственный блок Amazon S3, вам необходимо выбрать подключение к этому блоку.

        В обоих случаях вам также необходимо выбрать подключение к промежуточной области Amazon S3. Если вы используете тот же блок, который вы определили на предыдущем шаге, убедитесь, что вы используете другую папку в блоке для промежуточного хранения.

    6. Нажмите Создать.

      Проект создан, и вы можете создать свой конвейер данных, добавляя задачи данных.

  2. В проекте нажмите Создать, а затем Загрузить данные.

    Для получения дополнительной информации см. Ввод данных в хранилище данных.

    Это создаст задачу данных промежуточного хранения и задачу данных хранения. Чтобы начать репликацию данных, вам необходимо:

  3. Когда задача данных хранения будет создана, вернитесь к проекту. Теперь вы можете выполнять преобразования над созданными наборами данных.

    Нажмите ... на задаче данных хранения и выберите Преобразование данных, чтобы создать задачу данных преобразования на основе этой задачи данных хранения. Инструкции по преобразованиям см. в разделе Преобразование данных.

  4. Вы можете создать витрину данных на основе задачи данных хранения или задачи данных преобразования.

    Нажмите ... на задаче данных и выберите Создать витрину данных, чтобы создать задачу данных витрины данных. Инструкции по созданию витрины данных см. в разделе:

    Создание витрин данных и управление ими

Когда вы выполните первую полную загрузку сохраненных и преобразованных наборов данных и витрин данных, вы сможете использовать их, например, в аналитическом приложении. Для получения дополнительной информации о создании аналитических приложений см. Создание аналитического приложения, использующего наборы данных, сгенерированных через интеграцию данных.

Вы также можете расширить конвейер данных, загрузив больше источников данных и объединив их в преобразовании или в витрине данных.

Создание межпроектных конвейеров

Вы можете создавать межпроектные конвейеры, в которых задача может потреблять задачи из другого проекта. Это позволяет достичь сегментации несколькими возможными способами:

  • Вы можете создать отдельный конвейер перемещения данных для каждого организационного подразделения и потреблять выходные данные в едином конвейере витрины данных.

  • Вы можете создать единый конвейер перемещения данных и потреблять выходные данные в нескольких конвейерах преобразования.

Примечание к предупреждениюНи при каких обстоятельствах не создавайте циклические зависимости задач в проектах конвейеров данных. Циклические зависимости задач серьезно влияют на стабильность, производительность и удобство обслуживания.

Задачи Преобразование и Витрина данных могут потреблять задачи Хранение и Преобразование, расположенные в другом проекте.

  • У вас должна быть как минимум роль Может потреблять в пространстве потребляемого проекта.

  • Оба проекта должны находиться на одной платформе данных.

Все наборы данных задачи совместно используются с нижестоящими проектами. Это означает, что если вы хотите достичь разделения наборов данных, вы должны отфильтровать наборы данных в потребляемом проекте, создав задачу преобразования.

В представлении проектов вы можете просматривать задачи, которые потребляются другим проектом, и задачи из других проектов, которые потребляются в текущем проекте. Все задачи за пределами текущего проекта выделены серым цветом. Зависимости осуществляются по ссылке, а не по имени, что означает, что вы можете переименовать задачу, не нарушая ссылку. Это также означает, что если вы удалите потребляемую задачу и создадите новую задачу с тем же именем, ссылка все равно будет нарушена.

Существует несколько способов повторного использования существующих данных:

  • Создание нового проекта

    Выберите опцию Использовать данные из другого проекта после создания проекта.

    Вы можете создать преобразование или витрину данных, потребляя загруженные данные из другого конвейера.

  • В задаче Преобразование или задаче Витрина данных вы можете выбрать данные из другого проекта в разделе Выбрать исходные данные.

    При выборе исходных данных выберите Проект. Если выбранный проект находится под контролем версий, выберите Ветвь. Ветвь по умолчанию — main. Список задач данных обновляется в соответствии с выбранной ветвью. Затем выберите Задача данных, чтобы увидеть, какие наборы данных доступны.

Вы можете выбрать, хотите ли вы отображать задачи в других проектах, которые потребляют задачу в этом проекте.

  • Нажмите Слои и включите или выключите Межпроектный вывод.

Все задачи за пределами текущего проекта выделены серым цветом.

Ограничения контроля версий

Поскольку межпроектные конвейеры разделены между несколькими проектами, это добавляет сложности при использовании контроля версий. В этих примерах Project1 потребляется Project2.

Пример межпроектного конвейера

  • Project2 может потреблять определенную ветвь Project1. Выберите ветвь в разделе Выбрать исходные данные в задаче преобразования или витрины данных. Ветвь по умолчанию — main. Если проект, на который ссылаются, не находится под контролем версий, селектор ветвей не отображается, и Project2 использует проект как есть.

  • Вы можете создать ветвь для Project1, но в разветвленной версии не будет показано, что она потребляется Project2.

  • Вы можете объединить Project2 с main, но зависимость все равно будет существовать.

Примечание к информации

Если ветвь, выбранная в Project1, позже будет удалена, ссылка нарушится так же, как и при удалении задачи, на которую ссылаются. Если задача, на которую ссылаются, имеет другой вывод в выбранной ветви, ссылка ведет себя так же, как и при изменении вывода задачи, на которую ссылаются.

Рекомендации

  • Убедитесь, что задачи в потребляемом проекте по крайней мере подготовлены, чтобы убедиться, что они действительны.

  • Если вы планируете выполнять экспорт и импорт проектов между клиентами, будет проще, если вы сохраните одинаковые имена для пространств и проектов в клиентах. Если имена различаются, вам нужно будет сопоставить проекты и задачи при импорте проекта.

  • Если вы хотите изменить платформу данных с помощью экспорта и импорта, все проектов с зависимостями должны находиться на одной платформе.

    Выполните следующие шаги для безопасной и простой смены платформы. В этом примере проект, который потребляется, называется Consumed, а проект, читающий из Consumed, называется Consumer.

    1. Экспортируйте Consumed и Consumer.

    2. Импортируйте Consumed в Consumed_New, перейдя на новую платформу данных.

    3. Импортируйте Consumer в Consumer_New, перейдя на ту же платформу данных, что и Consumed_New, и заменив исходный проект (Consumed) на Consumed_New.

Операции в проекте конвейера данных

Вы можете выполнять те же операции, которые доступны для задачи данных, в качестве операций проекта. Это позволяет вам оркестрировать операции в конвейере данных.

Примечание к информацииВы можете выполнять только одну операцию проекта за раз для каждого проекта.
  • Включение и выключение расписаний

  • Выполнение операций проектирования

  • Запуск и остановка выполнения задач данных

  • Удаление задач данных

Нажмите Операции, чтобы просмотреть статус выполняемой операции или последней выполненной операции.

Вы можете остановить выполняемую операцию, нажав Остановить операцию. Задачи данных, которые находятся в процессе выполнения, не будут остановлены, но это отменит любую задачу, которая еще не началась.

Включение и выключение расписаний

Вы можете управлять расписаниями для задач данных на уровне проекта.

  • Нажмите ..., а затем Расписание.

    Вы можете включить или выключить расписание для всех задач данных или для выбранных задач. Отображаются только задачи с определенным расписанием.

    Примечание к информацииЭта опция недоступна для проектов с Qlik Cloud в качестве платформы данных.

Для получения дополнительной информации о планировании отдельных задач данных см.:

Выполнение операций проектирования

Вы можете выполнять операции проектирования для всех задач данных в проекте или для выбранных задач. Это упрощает управление задачами наборов данных в проекте вместо выполнения операций проектирования индивидуально в каждой задаче.

  • Проверить

    Нажмите Проверить, чтобы проверить все задачи или выбранные задачи. Задачи данных, которые были изменены с момента последней операции проверки, предварительно выбраны.

    Задачи данных проверяются в порядке конвейера.

  • Подготовить

    Нажмите Подготовить, чтобы подготовить все задачи или выбранные задачи. Задачи данных, которые были изменены с момента последней операции подготовки, предварительно выбраны.

    Вы можете выбрать воссоздание наборов данных, требующих изменения структуры, не поддерживаемого платформой данных. Это может привести к потере данных.

  • Воссоздать

    Нажмите ..., а затем Воссоздать таблицы, чтобы воссоздать наборы данных из источника для всех задач или для выбранных задач.

    Примечание к информацииЕсли возникли проблемы с отдельными таблицами, рекомендуется сначала попробовать перезагрузить таблицы, а не создавать их заново. Воссоздание таблиц может привести к потере исторических данных. При наличии существенных изменений необходимо также подготовить нижестоящие задачи данных, потребляющие воссозданные задачи данных, для перезагрузки данных.

Запуск задач данных

Вы можете инициировать выполнение всех задач данных в проекте или выбранных задач вместо запуска задач по отдельности. Например, вы можете запустить все задачи с расписанием на основе времени. Это инициирует нижестоящие задачи с расписанием на основе событий.

  • Запустить

    Нажмите Запустить, чтобы инициировать выполнение всех задач или выбранных задач. Это инициирует запуск всех выбранных задач и завершается, как только они начинают выполняться.

    Вы можете выбрать из всех задач, которые готовы к запуску. Задачи с расписанием на основе времени и задачи, использующие CDC, предварительно выбраны. Задачи с расписанием на основе событий не выбираются предварительно, так как они будут выполнены, когда у них появятся данные для обработки.

    В проекте с Qlik Cloud в качестве платформы данных все задачи промежуточного хранения и хранения предварительно выбраны.

    Примечание к информацииВсе задачи данных выполняются параллельно. Это означает, что проверки зависимостей могут предотвратить запуск некоторых задач.
  • Остановить

    Нажмите Остановить, чтобы остановить все задачи или выбранные задачи.

    Вы можете выбрать из выполняющихся задач.

Удаление задач данных

  • Нажмите Удалить, чтобы удалить все задачи данных в проекте или выбранные задачи.

Невозможно удалить задачи, которые выполняются, или задачи, которые используются другими задачами.

Изменение представления проекта

Существует два различных представления проекта. Вы можете переключаться между представлениями, нажимая Представление конвейера.

  • Представление конвейера показывает поток данных задач данных.

    Вы можете выбрать, сколько информации показывать для задач данных, нажав Слои. Включите или выключите следующую информацию:

    • Статус

    • Свежесть данных

    • Расписание

    • Межпроектный вывод

      Это отобразит задачи в других проектах, которые потребляют задачу в этом проекте. Все задачи за пределами текущего проекта выделены серым цветом.

  • Представление карточек показывает представление карточек с информацией о задаче данных.

    Вы можете фильтровать по типу актива и владельцу.

Удаление проекта

  • В представлении Проекты конвейеров нажмите Дополнительно на проекте и выберите Удалить.

Вы можете выбрать сохранение артефактов (таблиц и представлений), созданных задачей, для каждой отдельной задачи, за исключением следующих типов, где артефакты сохраняются всегда:

  • Задачи промежуточного хранения

  • Задачи промежуточного хранения в озере

  • Задачи репликации

Примечание к информацииИмейте в виду, что сохраняемые вами артефакты больше не будут обновляться задачей.

Просмотр данных

Вы можете просмотреть данные образца, чтобы увидеть и проверить форму ваших данных при проектировании конвейера данных.

Требуются следующие разрешения:

  • Просмотр данных включен на уровне клиента в Администрирование.

    Включите Настройки > Управление функциями > Просмотр данных в Интеграция данных.

  • Вам назначена роль Может просматривать данные в пространстве, где находится подключение.

  • Вам назначена роль Может просматривать в пространстве, где находится проект.

Чтобы просмотреть данные образца в представлении конвейера данных:

  1. Нажмите Вверх на баннере предварительного просмотра в нижней части представления конвейера.

  2. Выберите, для какой задачи данных предварительно просмотреть данные.

Отображается образец данных. Вы можете задать, сколько строк данных включить в образец, с помощью Количество строк.

Экспорт и импорт проектов

Вы можете экспортировать проект в файл JSON, который содержит все необходимое для реконструкции проекта. Экспортированный файл JSON можно импортировать в том же клиенте или в другом клиенте. Вы можете использовать это, например, для перемещения проектов от одного клиента к другому или для создания резервных копий проектов.

Для получения дополнительной информации см. Экспорт и импорт конвейеров данных.

Изменение владельца проекта

Задачи данных работают в контексте владельца проекта, к которому они принадлежат. Вы можете изменить владельца проекта, чтобы передать управление всеми задачами в проекте данных другому пользователю. Это, например, полезно, если есть проекты, принадлежащие удаленному пользователю.

Примечание к информацииИзменение владельца проекта требует роли Администратор клиента или Администратор данных. Для получения дополнительной информации о требуемых ролях и разрешениях см. Роли и разрешения в пространстве данных.
  • В представлении проекта нажмите ..., а затем Изменить владельца.

Изменение владельца будет применяться ко всем задачам в проекте. Все каталогизированные наборы данных, созданные задачами в проекте, также изменят владельца.

Изменение подключения к платформе данных

Если вы измените подключение Платформа данных для проекта, вы должны:

  1. Воссоздать таблицы во всех задачах промежуточного хранения.

  2. Подготовить все остальные задачи в проекте.

Просмотр информации о проекте

Нажмите Сведения на панели меню, чтобы просмотреть информацию о проекте, например:

  • Владелец

  • Пространство

  • Платформа данных

  • Идентификатор проекта

Настройки проекта

Вы можете задать свойства, общие для проекта и всех включенных задач данных.

  • Нажмите Настройки.

Для получения дополнительной информации см. Настройки проекта конвейера данных.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!