Walidacja i korekta danych za pomocą opieki nad danymi
Dzięki funkcji Opieka nad danymi w Qlik Talend Cloud możesz korzystać z wiedzy ekspertów merytorycznych w celu walidacji i korekty danych. Użyj istniejących typów semantycznych i reguł walidacji, aby upewnić się, że dane są spójnie sformułowane. Rozszerza to zautomatyzowane potoki o naprawę z udziałem człowieka opartą na wiedzy dziedzinowej. Po zwalidowaniu danych można je ponownie wprowadzić do oryginalnego źródła danych lub do dowolnego systemu docelowego.
Tworzysz Sprint, który jest głównym elementem pracy w zakresie walidacji i naprawy. Sprint zawiera informacje o:
-
Danych źródłowych
-
Schemacie danych do użycia podczas walidacji
-
Właścicielach Sprintu
-
Zdefiniowanych opiekunach danych
-
Magazynie danych używanym dla danych Sprintu
-
Ustawieniach przepływu pracy
Podczas Sprintu wszystkie dane Sprintu są przechowywane we własnej hurtowni danych w chmurze, a nie w Qlik Talend Cloud. Obecnie Snowflake jest jedyną obsługiwaną hurtownią danych w chmurze.
Możesz zdefiniować następujące role użytkowników:
-
Właściciel Sprintu
Właściciele Sprintu mogą walidować rekordy, które zostały rozwiązane przez opiekunów danych. Mogą również uzyskiwać dostęp do rozwiązanych rekordów i eksportować dane.
-
Opiekun danych
Opiekun danych ma przypisane rekordy w celu rozwiązania problemów z jakością.
Sprinty tworzy się w sekcji Opieka nad danymi w centrum aktywności Qlik Talend Data Integration. Możesz tworzyć Sprinty rozwiązywania, które korygują i porządkują dane w jednym lub kilku polach w zestawie danych wymagającym walidacji. Oto przepływ pracy:
-
Tworzenie sprintu rozwiązywania
Utwórz Sprint i zdefiniuj dane do walidacji. Możesz zasilić Sprint zadaniem Talend Studio lub zaimportować plik CSV z danymi.
Opiekunowie danych są definiowani w celu przeprowadzenia walidacji. Rekordy można przypisywać ręcznie lub automatycznie.
-
Praca w sprincie rozwiązywania problemów
Opiekunowie danych walidują dane w przypisanych rekordach.
-
Zarządzanie rozwiązanymi rekordami
-
Jeśli Sprint został zasilony zadaniem Talend Studio, tworzysz zadanie Talend Studio, aby pobrać zwalidowane rekordy i zwrócić je do oryginalnego źródła danych lub do dowolnego innego wymaganego miejsca docelowego.
-
Jeśli Sprint został zasilony plikiem CSV, Sprint kończy się poprzez wyeksportowanie zwalidowanych danych do pliku CSV. Możesz zaktualizować źródło danych zwalidowanymi danymi, importując wyeksportowany plik CSV.
-