Проверка и исправление данных с помощью курирования данных
С помощью курирования данных в Qlik Talend Cloud вы можете привлекать экспертов в предметной области для проверки и исправления ваших данных. Используйте существующие семантические типы и правила проверки, чтобы убедиться, что данные сформированы согласованно. Это расширяет автоматизированные конвейеры за счет исправления данных с участием человека, основанного на экспертных знаниях в предметной области. После проверки данных вы можете повторно ввести их в исходный источник данных или в любую нижестоящую систему.
Вы создаете спринт, который является основным объемом работы для проверки и исправления. Спринт содержит информацию о:
-
Исходные данные
-
Схема данных, используемая для проверки
-
Владельцы спринта
-
Определенные администраторы данных
-
Хранилище данных, используемое для данных спринта
-
Настройки рабочего процесса
Во время спринта все данные спринта хранятся в вашем собственном облачном хранилище данных, а не в Qlik Talend Cloud. В настоящее время Snowflake является единственным поддерживаемым облачным хранилищем данных.
Вы можете определить следующие роли пользователей:
-
Владелец спринта
Владельцы Sprint могут проверять записи, которые были разрешены кураторами данных. Они также могут получать доступ к разрешенным записям и экспортировать данные.
-
Куратор данных
Куратору данных назначаются записи для устранения проблем с качеством.
Вы создаете спринты в курировании данных в Qlik Talend Data Integration центре активности. Вы можете создавать спринты по устранению проблем, которые исправляют и курируют данные в одном или нескольких полях набора данных, требующего проверки. Вот рабочий процесс:
-
Создание спринта по устранению проблем
Создайте спринт и определите данные для проверки. Вы можете либо заполнить спринт с помощью Talend Studio задания, либо импортировать CSV-файл с данными.
Кураторы данных определяются для выполнения проверки. Записи могут быть назначены вручную или автоматически.
-
Работа в спринте по устранению ошибок
Кураторы данных проверяют данные в назначенных записях.
-
Управление разрешенными записями
-
Если вы заполнили спринт с помощью Talend Studio задания, вы создаете Talend Studio задание для извлечения проверенных записей и возврата их в исходный источник данных или в любое другое требуемое место назначения.
-
Если вы заполнили спринт файлом CSV, спринт завершается экспортом проверенных данных в файл CSV. Вы можете обновить источник данных проверенными данными, импортировав экспортированный файл CSV.
-