Создание проекта конвейера данных

Создайте конвейер данных, чтобы выполнить интеграцию всех данных в проекте с помощью задач данных. При подключении данные перемещаются в проект из локальных или облачных источников данных и хранятся в виде готовых к использованию наборов данных. Можно также преобразовывать данные и создавать киоски данных, чтобы эффективно использовать созданные и преобразованные наборы данных. Конвейер данных может быть простым и линейным, или это может быть сложный конвейер, использующий несколько источников данных и генерирующий множество выходных данных.

Проекты конвейеров данных не поддерживают коннекторы Preview приложений SaaS. Чтобы узнать, предоставляется ли коннектор в режиме предварительного просмотра, см. справку по коннектору.

Все наборы данных создаются в том же пространстве, что и проект, к которому они относятся.

Также можно просмотреть происхождение для отслеживания данных и преобразования данных в обратном порядке вплоть для первоначального источника и выполнить анализ воздействия, который представляет прямое нисходящее представление зависимостей задач данных, наборов данных или полей. Для получения дополнительной информации см. раздел Работа с происхождением и анализом воздействия в Интеграция данных.

Подключение данных

Эта задача включает в себя промежуточное хранение данных в промежуточной области, а затем хранение наборов данных в облачном хранилище данных. Задачи промежуточного хранения и хранения данных создаются за один шаг. При необходимости можно также создать отдельные задачи для промежуточного хранения и хранения.

Регистрация данных, которые уже существуют в пределах платформы данных

Зарегистрируйте данные, которые уже существуют на платформе данных, чтобы курировать и преобразовывать данные, а также создавать киоски данных. Это позволяет использовать данные, добавленные в систему не только с помощью Qlik Talend Data Integration, но другими средствами, такими как Qlik Replicate или Stitch.

Преобразование данных

Создавайте в подключенных данных многократно используемые преобразования на уровне строк на основе правил и пользовательского SQL. При этом создается задача данных для преобразования.

Создание киосков данных и управление ими

Создание киоска данных для эффективного использования наборов данных. Эта задача предполагает создание задачи данных для киоска данных.

Целевые платформы данных

Проект связан с платформой данных, которая используется в качестве целевого объекта для всех выходных данных.

Для получения дополнительной информации о поддерживаемых платформах данных см. раздел Настройка подключений к целям.

Ознакомительный видеоролик о проектах

Пример создания проекта

В следующем примере выполняется подключение данных, преобразование данных и создание киоска данных. Таким образом создается простой линейный конвейер данных, который можно расширить, подключив больше источников данных, создав больше преобразований и добавив созданные наборы данных в киоск данных.

Блок-схема конвейеров данных — Пример линейного конвейера данных в проекте

Создайте новый проект.

Выберите Интеграция данных > Проекты и щелкните Создать и выберите Проект.
1. Введите имя и описание проекта.
  
  Примечание к информацииЕсли позднее будет включен контроль версий для проекта, то изменить имя проекта можно будет только после отключения контроля версий.
2. Выберите пространство для создания проекта. Все наборы данных создаются в пространстве проекта, к которому они относятся.
3. Выберите Конвейер данных в поле Пример использования.
4. Выберите, какая платформа данных будет использоваться в проекте данных.
5. Выберите подключение к облачному хранилищу данных, которое будет использоваться в проекте. Оно будет использоваться для промежуточного хранения файлов данных, а также для хранения наборов данных и видов. Если подключение еще не подготовлено, создайте его, нажав Создать.
  - Если в качестве платформы данных выбрана Google BigQuery, Databricks или Microsoft Azure Synapse Analytics, также необходимо подключиться к промежуточной области.
  - Если в качестве платформы для работы с данными выбрана Snowflake, можно выбрать промежуточное хранение данных в облаке. См. раздел Промежуточное хранение данных в хранилище в озере данных.
  - Если в качестве платформы данных выбрана Qlik Cloud,
    
    хранить данные можно в управляемом хранилище Qlik или в блоке Amazon S3, управляемом вами. При использовании собственного блока Amazon S3 необходимо выбрать подключение к этому блоку.
    
    В обоих случаях также необходимо выбрать подключение к промежуточной области Amazon S3. При использовании блока, заданного в предыдущем шаге, убедитесь, что для промежуточного хранения используется другая папка в этом блоке.
6. Щелкните Создать.
  
  Проект создан, и теперь можно создавать конвейер данных, добавляя в него наборы данных.
Подключение данных

В проекте щелкните Создать, затем Подключить данные.

Для получения дополнительной информации см. раздел Подключение данных.

Это создаст задачу промежуточного хранения данных и задачу хранения данных. Чтобы начать репликацию данных, необходимо:
- подготовить и запустить задачу промежуточного хранения данных.
  
  Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.
- подготовить и запустить задачу хранения данных.
  
  Для получения дополнительной информации см. раздел Хранение наборов данных.
Преобразование данных

После создания задачи хранения данных вернитесь в проект. Теперь можно выполнять преобразования созданных наборов данных.

Нажмите ... в задаче хранения данных и выберите Преобразование данных, чтобы создать задачу преобразования данных на основе этой задачи хранения данных. Для получения дополнительной информации о преобразованиях см. раздел Преобразование данных.
Создание киоска данных

На основе задачи хранения данных или задачи преобразования данных можно создать киоск данных.

Нажмите ... в задаче данных и выберите Создать киоск данных, чтобы создать задачу данных «киоск данных». Для получения дополнительной информации о создании киоска данных см. раздел

Создание киосков данных и управление ими

Сохраненные и преобразованные наборы данных, а также киоски данных будут доступны для использования, например, в аналитическом приложении, после их первой полной загрузки. Для получения дополнительной информации о создании аналитических приложений см. раздел Создание аналитического приложения, использующего наборы данных, сгенерированных через интеграцию данных.

Конвейер данных также можно расширить, подключив дополнительные источники данных и объединив их в процессе преобразования или в киоске данных.

Построение межпроектных конвейеров

Можно создавать межпроектные конвейеры, в которых задача может использовать задачи из другого проекта. Это позволяет обеспечивать сегментацию несколькими возможными способами:

Можно создать отдельный конвейер перемещения данных для каждого организационного подразделения и использовать полученные выходные данные в одном конвейере киоска данных.
Можно создать один конвейер перемещения данных и использовать его результаты в нескольких конвейерах преобразования.

Задачи преобразования и киоска данных могут использовать задачи хранения и преобразования данных, которые находятся в другом проекте.

Для этого как минимум требуется роль Может использовать в пространстве используемого проекта.
Оба проекта данных должны работать на одной платформе данных.

Все наборы данных задачи передаются в нижестоящие проекты. Это означает, что если требуется обеспечить сегрегацию наборов данных, необходимо отфильтровать наборы данных в используемом проекте, создав задачу преобразования.

В виде «Проекты» можно просматривать задачи, которые используются другим проектом, а также задачи из других проектов, которые используются в текущем проекте. Все задачи за пределами текущего проекта выделены серым цветом. Зависимости устанавливаются по ссылке, а не по имени, то есть нельзя переименовать задачу, не нарушив ссылку. Это также означает, что если используемая задача удаляется, а затем создается новая задача с тем же именем, ссылка все равно не будет работать.

Существует несколько способов повторного использования существующих данных.

Создание нового проекта

Выберите параметр Использовать данные из другого проекта после создания проекта.

Можно создать преобразование данных или киоск данных, используя данные, подключенные из другого конвейера.
В задаче преобразования данных или киоска данных можно выбрать данные из другого проекта в списке Выберите исходные данные.

При выборе исходных данных укажите Проект, а затем сделайте выбор в поле Задача данных, чтобы увидеть, какие наборы данных доступны.

Можно выбрать, требуется ли отображать задачи в других проектах, которые используют задачи в этом проекте.

Щелкните Слой и включите или выключите параметр Межпроектные выходные данные.

Все задачи за пределами текущего проекта выделены серым цветом.

Ограничения контроля версий

Поскольку межпроектные конвейеры разделены между несколькими проектами, это усложняет использование контроля версий. В этих примерах проект Project1 используется проектом Project2.

Нажмите для просмотра в полном размере — Пример межпроектного конвейера

Project2 может использовать только основную ветку проекта Project1, но сам Project2 может находиться в другой ветке.
Можно создать ветку для Project1, но для версии в ветке не будет отображаться, что она используется проектом Project2.
Можно объединить Project2 с главной веткой, но зависимость все равно будет существовать.

Оптимальные методы работы

Проверьте, что задачи в используемом проекте, по крайней мере, подготовлены, чтобы убедиться, что они действительны.
Старайтесь не разрабатывать конвейеры, которые создают циклы или взаимную зависимость между проектами.
Если планируется экспортировать или импортировать проекты между клиентами, рекомендуется оставить те же имена для пространств и проектов в клиентах. Если имена будут другими, потребуется сопоставлять проекты и задачи при импорте проекта.
Если требуется изменить платформу данных с помощью экспорта и импорта, все проекты с зависимостями должны размещаться на той же платформе.

Выполните следующие действия, чтобы просто и безопасно изменить платформу. В этом примере проект, который используется, называется Consumed, а проект, считывающий данные из Consumed, называется Consumer.
1. Экспортируйте Consumed и Consumer.
2. Импортируйте Consumed в Consumed_New, используя новую платформу данных.
3. Импортируйте Consumer в Consumer_New, используя в качестве новой платформы ту же платформу данных, что и Consumed_New, и заменяя исходный проект (Consumed) на Consumed_New.

Операции в проекте конвейера данных

Все операции, доступные для задачи данных, можно выполнять как операции проекта. Это позволяет удобно организовать операции в конвейере данных.

В одном проекте можно выполнить только одну операцию проекта за раз.

Включение и отключение графиков
Выполнение проектных операций
Запуск и остановка выполнения задач данных
Удаление задач данных

Нажмите Операции, чтобы просмотреть состояние выполняемой операции или последней выполненной операции.

Выполняемую операцию можно остановить, нажав кнопку Остановить операцию. При этом выполняемые задачи данных не будут остановлены, но будут отменены все задачи, которые еще не запущены.

Включение и отключение графиков

Графиками выполнения задач данных можно управлять на уровне проекта.

Нажмите ... и выберите График.

Можно включить или отключить график для всех или только для выбранных задач данных. Отображаются только задачи данных, для выполнения которых установлен график.

Примечание к информацииЭта функция недоступна для проектов, где в качестве платформы данных используется Qlik Cloud.

Для получения дополнительной информации о планировании отдельных задач данных см. разделы:

Выполнение проектных операций

Проектные операции можно выполнять для всех или только для выбранных задач данных в проекте. Это упрощает управление задачами данных в проекте, вместо того чтобы выполнять проектные операции отдельно для каждой задачи данных.

Проверить

Нажмите Проверить, чтобы проверить все или выбранные задачи данных. Задачи данных, которые были изменены с момента последней операции проверки, выбираются заранее.

Задачи данных проверяются в порядке, в котором они расположены в конвейере.
Подготовить

Нажмите Подготовить, чтобы подготовить все или выбранные задачи данных. Задачи данных, которые были изменены с момента последней операции подготовки, выбираются заранее.

Можно выбрать воссоздание наборов данных, для которых требуется изменение структуры, не поддерживаемое платформой данных. Это может привести к потере данных.
Воссоздать

Нажмите ... и выберите Воссоздать таблицы, чтобы воссоздать наборы данных из источника для всех или выбранных задач данных.

Примечание к информацииЕсли возникли проблемы с отдельными таблицами, рекомендуется сначала попробовать перезагрузить таблицы, а не создавать их заново. Воссоздание таблиц может привести к потере исторических данных. При наличии существенных изменений необходимо также подготовить нижестоящие задачи данных, потребляющие воссозданные задачи данных, для перезагрузки данных.

Выполнение задач данных

Можно запустить выполнение всех или только выбранных задач данных в проекте, вместо того чтобы запускать их по отдельности. Например, можно запустить выполнение всех задач по графику, основанному на времени. Эта операция запустит выполнение последующих задач по графику, основанному на событиях.

Запустить

Нажмите Запустить, чтобы запустить выполнение всех или выбранных задач данных. Эта операция запускает выполнение всех выбранных задач данных и завершает его, как только они начнут выполняться.

Задачи для запуска можно выбрать из всех задач, готовых к выполнению. Задачи, выполняемые по графику, основанному на времени, и задачи CDC выбираются заранее. Задачи, выполняемые по графику, основанному на событиях, не выбираются заранее, так как они будут запущены после получения данных для обработки.

Если в проекте данных в качестве платформы данных используется Qlik Cloud, все задачи промежуточного хранения данных и задачи хранения данных выбираются заранее.

Примечание к информацииВсе задачи данных выполняются параллельно. Это означает, что проверка зависимостей может помешать выполнению некоторых задач.
Остановить

Нажмите Остановить, чтобы остановить выполнение всех или выбранных задач данных.

Задачи для остановки можно выбрать из выполняемых задач.

Удаление задач данных

Нажмите «Удалить», чтобы удалить все или выбранные задачи данных в проекте.

Изменение вида проекта

Существует два различных вида проекта. Для переключения между видами нажмите Вид конвейера.

Вид конвейера отображает поток данных задач данных.

Можно выбрать, какой объем информации должен отображаться для задач данных, нажав Слои. Включите или выключите отображение следующей информации:
- Состояние
- Актуальность данных
- График
- Межпроектные выходные данные
  
  В результате будут отображены задачи в других проектах, которые используют задачи в этом проекте. Все задачи за пределами текущего проекта выделены серым цветом.
В виде карты отображается карточка с информацией о задаче данных.

Можно применить фильтр по типу ресурса и владельцу.

Просмотр данных

Можно открыть образец данных, чтобы посмотреть и проверить форму данных в процессе проектирования конвейера данных.

Требуются следующие разрешения:

Просмотр данных включается на уровне клиента в Администрирование.

Включите Параметры > Контроль функции > Просмотр данных в Интеграция данных.
Вам назначена роль Может просматривать данные в пространстве, где находится подключение.
Вам назначена роль Может просматривать в пространстве, где находится проект.

Для просмотра данных образцов в виде конвейера данных выполните следующие действия.

Щелкните в баннере предварительного просмотра в нижней части вида конвейера данных.
Выберите, для какой задачи данных требуется просмотреть данные.

Отображается образец данных. Параметр Количество строк позволяет настроить, сколько строк требуется включить в образец.

Экспорт и импорт проектов

Можно экспортировать проект в файл JSON, содержащий все, что необходимо для воссоздания этого проекта. Экспортированный файл JSON можно импортировать в тот же или в другой клиент. Например, эту функцию можно использовать для переноса проектов из одного клиента в другой или для создания резервных копий проектов.

Для получения дополнительной информации см. раздел Экспорт и импорт конвейеров данных.

Изменение владельца проекта

Задачи данных выполняются в контексте владельца проекта, к которому они относятся. Можно изменить владельца проекта, чтобы передать другому пользователю контроль над всеми задачами в проекте данных. Это полезно, например, если есть проекты, принадлежащие пользователю, который был удален.

Для смены владельца проекта требуется роль администратора клиента или администратора данных. Для получения дополнительной информации о необходимых ролях и разрешениях см. раздел Роли и разрешения в пространстве данных.

В режиме просмотра проекта щелкните ... и затем Изменить владельца.

Смена владельца будет применена ко всем задачам в проекте. Также изменится владелец всех наборов данных в каталоге, созданных задачами в проекте.

Параметры проекта

Задайте общие свойства для проекта данных и всех содержащихся в нем задач данных.

Нажмите Параметры.

Для получения дополнительной информации см. раздел Параметры проекта конвейера данных.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Использование Qlik Cloud Data Integration для подключения и преобразования данных

Подробнее

Использование Qlik Cloud Data Integration для подключения и преобразования данных

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!

Оставьте свой отзыв здесь