Создание конвейера данных
Создайте конвейер данных, чтобы выполнить интеграцию всех данных в проекте с помощью задач данных. При подключении данные перемещаются в проект из локальных или облачных источников данных и хранятся в виде готовых к использованию наборов данных. Можно также преобразовывать данные и создавать киоски данных, чтобы эффективно использовать созданные и преобразованные наборы данных. Конвейер данных может быть простым и линейным, или это может быть сложный конвейер, использующий несколько источников данных и генерирующий множество выходных данных.
Все наборы данных создаются в том же пространстве, что и проект, к которому они относятся.
Также можно просмотреть происхождение для отслеживания данных и преобразования данных в обратном порядке вплоть для первоначального источника и выполнить анализ воздействия, который представляет прямое нисходящее представление зависимостей задач данных, наборов данных или полей. Для получения дополнительной информации см. раздел Работа с происхождением и анализом воздействия в Интеграция данных.
Подключение данных
Эта задача включает в себя промежуточное хранение данных в промежуточной области, а затем хранение наборов данных в облачном хранилище данных. Задачи промежуточного хранения и хранения данных создаются за один шаг. При необходимости можно также создать отдельные задачи для промежуточного хранения и хранения.
Регистрация данных, которые уже существуют в пределах платформы данных
Зарегистрируйте данные, которые уже существуют на платформе данных, чтобы курировать и преобразовывать данные, а также создавать киоски данных. Это позволяет использовать данные, добавленные в систему не только с помощью Qlik Talend Data Integration, но другими средствами, такими как Qlik Replicate или Stitch.
Преобразование данных
Создавайте в подключенных данных многократно используемые преобразования на уровне строк на основе правил и пользовательского SQL. При этом создается задача данных для преобразования.
Создание киосков данных и управление ими
Создание киоска данных для эффективного использования наборов данных. Эта задача предполагает создание задачи данных для киоска данных.
Целевые платформы данных
Проект связан с платформой данных, которая используется в качестве целевого объекта для всех выходных данных.
Для получения дополнительной информации о поддерживаемых платформах данных см. раздел Настройка подключений к целям.
Ознакомительный видеоролик о проектах
Пример создания проекта
В следующем примере выполняется подключение данных, преобразование данных и создание киоска данных. Таким образом создается простой линейный конвейер данных, который можно расширить, подключив больше источников данных, создав больше преобразований и добавив созданные наборы данных в киоск данных.
-
Создание нового проекта.
Выберите Интеграция данных > Проекты и щелкните Создать проект.
-
Введите имя и описание проекта и выберите пространство, в котором он будет создан. Все наборы данных создаются в пространстве проекта, к которому они относятся.
- Выберите Конвейер данных в поле Пример использования.
-
Выберите, какая платформа данных будет использоваться в проекте данных.
-
Выберите подключение к облачному хранилищу данных, которое будет использоваться в проекте. Оно будет использоваться для промежуточного хранения файлов данных, а также для хранения наборов данных и видов. Если подключение еще не подготовлено, создайте его, нажав Добавить подключение.
Если в качестве платформы данных выбрана Google BigQuery, Databricks или Microsoft Azure Synapse Analytics, также необходимо подключиться к промежуточной области.
-
Если в качестве платформы данных выбрана Qlik Cloud,
хранить данные можно в управляемом хранилище Qlik или в блоке Amazon S3, управляемом вами. При использовании собственного блока Amazon S3 необходимо выбрать подключение к этому блоку.
В обоих случаях также необходимо выбрать подключение к промежуточной области Amazon S3. При использовании блока, заданного в предыдущем шаге, убедитесь, что для промежуточного хранения используется другая папка в этом блоке.
-
Щелкните Создать.
Проект создан, и теперь можно создавать конвейер данных, добавляя в него наборы данных.
-
-
Подключение данных.
В проекте нажмите Добавить новый и Подключить данные.
Для получения дополнительной информации см. раздел Подключение данных.
Это создаст задачу промежуточного хранения данных и задачу хранения данных. Чтобы начать репликацию данных, необходимо:
-
подготовить и запустить задачу промежуточного хранения данных.
Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.
-
подготовить и запустить задачу хранения данных.
Для получения дополнительной информации см. раздел Хранение наборов данных.
-
-
Преобразование данных
После создания задачи хранения данных вернитесь в проект. Теперь можно выполнять преобразования созданных наборов данных.
Нажмите ... в задаче хранения данных и выберите Преобразование данных, чтобы создать задачу преобразования данных на основе этой задачи хранения данных. Для получения дополнительной информации о преобразованиях см. раздел Преобразование данных.
-
Создание киоска данных
На основе задачи хранения данных или задачи преобразования данных можно создать киоск данных.
Нажмите ... в задаче данных и выберите Создать киоск данных, чтобы создать задачу данных «киоск данных». Для получения дополнительной информации о создании киоска данных см. раздел
Сохраненные и преобразованные наборы данных, а также киоски данных будут доступны для использования, например, в аналитическом приложении, после их первой полной загрузки. Для получения дополнительной информации о создании аналитических приложений см. раздел Создание аналитического приложения с использованием наборов данных, созданных с помощью Qlik Talend Data Integration.
Конвейер данных также можно расширить, подключив дополнительные источники данных и объединив их в процессе преобразования или в киоске данных.
Операции в проекте
Все операции, доступные для задачи данных, можно выполнять как операции проекта. Это позволяет удобно организовать операции в конвейере данных.
-
Включение и отключение графиков
-
Выполнение проектных операций
-
Запуск и остановка выполнения задач данных
-
Удаление задач данных
Нажмите Операции, чтобы просмотреть состояние выполняемой операции или последней выполненной операции.
Выполняемую операцию можно остановить, нажав кнопку Остановить операцию. При этом выполняемые задачи данных не будут остановлены, но будут отменены все задачи, которые еще не запущены.
Включение и отключение графиков
Графиками выполнения задач данных можно управлять на уровне проекта.
-
Нажмите ... и выберите График.
Можно включить или отключить график для всех или только для выбранных задач данных. Отображаются только задачи данных, для выполнения которых установлен график.
Примечание к информацииЭта функция недоступна для проектов, где в качестве платформы данных используется Qlik Cloud.
Для получения дополнительной информации о планировании отдельных задач данных см. разделы:
Выполнение проектных операций
Проектные операции можно выполнять для всех или только для выбранных задач данных в проекте. Это упрощает управление задачами данных в проекте, вместо того чтобы выполнять проектные операции отдельно для каждой задачи данных.
-
Проверить
Нажмите Проверить, чтобы проверить все или выбранные задачи данных. Задачи данных, которые были изменены с момента последней операции проверки, выбираются заранее.
Задачи данных проверяются в порядке, в котором они расположены в конвейере.
-
Подготовить
Нажмите Подготовить, чтобы подготовить все или выбранные задачи данных. Задачи данных, которые были изменены с момента последней операции подготовки, выбираются заранее.
Можно выбрать воссоздание наборов данных, для которых требуется изменение структуры, не поддерживаемое платформой данных. Это может привести к потере данных.
-
Воссоздать
Нажмите ... и выберите Воссоздать, чтобы воссоздать наборы данных из источника для всех или выбранных задач данных.
Выполнение задач данных
Можно запустить выполнение всех или только выбранных задач данных в проекте, вместо того чтобы запускать их по отдельности. Например, можно запустить выполнение всех задач по графику, основанному на времени. Эта операция запустит выполнение последующих задач по графику, основанному на событиях.
-
Запустить
Нажмите Запустить, чтобы запустить выполнение всех или выбранных задач данных. Эта операция запускает выполнение всех выбранных задач данных и завершает его, как только они начнут выполняться.
Задачи для запуска можно выбрать из всех задач, готовых к выполнению. Задачи, выполняемые по графику, основанному на времени, и задачи CDC выбираются заранее. Задачи, выполняемые по графику, основанному на событиях, не выбираются заранее, так как они будут запущены после получения данных для обработки.
Если в проекте данных в качестве платформы данных используется Qlik Cloud, все задачи промежуточного хранения данных и задачи хранения данных выбираются заранее.
Примечание к информацииВсе задачи данных выполняются параллельно. Это означает, что проверка зависимостей может помешать выполнению некоторых задач. -
Остановить
Нажмите Остановить, чтобы остановить выполнение всех или выбранных задач данных.
Задачи для остановки можно выбрать из выполняемых задач.
Удаление задач данных
-
Нажмите «Удалить», чтобы удалить все или выбранные задачи данных в проекте.
Изменение вида проекта
Существует два различных вида проекта. Для переключения между видами нажмите Вид конвейера.
-
Вид конвейера отображает поток данных задач данных.
Можно выбрать, какой объем информации должен отображаться для задач данных, нажав Слои. Включите или выключите отображение следующей информации:
-
Состояние
-
Актуальность данных
-
График
-
-
В виде карты отображается карточка с информацией о задаче данных.
Можно применить фильтр по типу ресурса и владельцу.
Просмотр данных
Можно открыть образец данных, чтобы посмотреть и проверить форму данных в процессе проектирования конвейера данных.
Требуются следующие разрешения:
-
Просмотр данных включается на уровне клиента в Администрирование.
Включите Параметры > Контроль функции > Просмотр данных в Интеграция данных.
-
Вам назначена роль Может просматривать данные в пространстве, где находится подключение.
-
Вам назначена роль Может просматривать в пространстве, где находится проект.
Для просмотра данных образцов в виде конвейера данных выполните следующие действия.
-
Щелкните в баннере предварительного просмотра в нижней части вида конвейера данных.
-
Выберите, для какой задачи данных требуется просмотреть данные.
Отображается образец данных. Параметр Количество строк позволяет настроить, сколько строк требуется включить в образец.
Экспорт и импорт проектов
Можно экспортировать проект в файл JSON, содержащий все, что необходимо для воссоздания этого проекта. Экспортированный файл JSON можно импортировать в тот же или в другой клиент. Например, эту функцию можно использовать для переноса проектов из одного клиента в другой или для создания резервных копий проектов.
Для получения дополнительной информации см. раздел Экспорт и импорт конвейеров данных.
Параметры проекта
Задайте общие свойства для проекта данных и всех содержащихся в нем задач данных.
Нажмите Параметры.
Для получения дополнительной информации см. раздел Параметры проекта конвейера данных.