Über Talend Cloud Data Preparation
Bei Talend Cloud Data Preparation handelt es sich um eine Self-Service-Anwendung, mit der Informationsarbeiter zahlreiche Arbeitsstunden einsparen, da sie den arbeits- und zeitaufwändigen Prozess der Datenaufbereitung zu Analysezwecken oder anderen datenorientierten Aufgaben um einiges vereinfacht und beschleunigt.
Diese Cloud-Version wird auf der Grundlage von Talend Cloud ausgeführt und stellt Funktionen der Enterprise-Klasse in Verbindung mit Konnektivität für nahezu jede Datenquelle bereit. Die Anwendung fördert die Zusammenarbeit zwischen Geschäftsleuten, die die Daten am besten kennen, und zentralen Organisationen wie IT oder Risikomanagement, die Regeln und Richtlinien für Datenverfügbarkeit und Governance definieren.
Die Anwendung umfasst Folgendes:
- Integration und Katalogisierung
- Datenerkennung und Profiling
- Bereinigung, Standardisierung und Formgebung
- Anreicherung und Verbindung von Datensätzen
- Operationalisierung der Datenaufbereitung
Konzepte von Talend Data Preparation
- Verbindung: Verbindungen sind Umgebungen oder Systeme, in denen Datensätze gespeichert werden, darunter Datenbanken, Dateisysteme, verteilte Systeme oder Plattformen usw. Die Verbindungsinformationen für diese Systeme müssen nur einmal erfasst werden, da sie wiederverwendbar sind.
- Datensatz: Ein Datensatz enthält die Rohdaten, die als Rohmaterial für eine oder mehrere Datenaufbereitungen verwendet werden können. Datensätze werden als Tabellen dargestellt, auf die Sie Rezeptschritte anwenden können, ohne die Originaldaten zu verändern. Sie können in verschiedenen Datenaufbereitungen wiederverwendet werden.
- Sample: Ihre Daten werden in Form eines Samples angezeigt, das aus den Metadaten der Datensätze abgerufen wird.
- Datenaufbereitung: Eine Datenaufbereitung verknüpft einen Datensatz mit einem Rezept: Es handelt sich um das Endergebnis, das Sie mit Ihren Daten erzielen möchten. Sie können dieses Ergebnis als Datei exportieren oder es mit Datenzielen verbinden. Für eine Datenaufbereitung wird ein Rezept auf einen Datensatz angewendet, um ein bestimmtes Ergebnis zu erzielen. Der Originaldatensatz wird dabei nie geändert.
- Rezept: Ein Rezept wird definiert als „eine Gruppe von Anweisungen mit einer Liste von Bestandteilen für die Erstellung bzw. Vorbereitung von etwas“. In Talend Cloud Data Preparation handelt es sich bei den Bestandteilen um die Rohdaten, als Datensätze bezeichnet, und die Anweisungen entsprechen der Gruppe von Funktionen, die auf den Datensatz angewendet werden. In seiner visuellen Darstellung entspricht das Rezept einer Top-Down-Abfolge von Funktionen im linken zusammenklappbaren Fensterbereich. Ein Rezept ist über eine Datenaufbereitung mit einem Datensatz verbunden. Jede Aktualisierung des Rezepts wird automatisch in der Datenaufbereitung gespeichert.
- Funktion: Eine Funktion ist eine auf eine Zeile, eine Spalte oder den gesamten Datensatz angewendete Aktion, wie beispielsweise das Entfernen leerer Zeilen. Wenn Funktionen im Rahmen einer Datenaufbereitung angewendet werden, werden die Originaldaten dadurch nicht geändert. Die angewendeten Funktionen werden in der Reihenfolge ihrer Anwendung in Rezepten aufgezeichnet.
- Semantischer Typ: Der semantische Typ einer Spalte oder eines Datensatzes entspricht dem Typ der Daten, die sich darin befinden, z. B. Namen, Postleitzahlen, Telefonnummern, Koordinaten usw. Alle Talend Cloud-Anwendungen berücksichtigen die Semantik Ihrer Daten, d. h. bei der Anzeige der Sample-Daten werden diese automatisch anhand der standardmäßigen oder der von Ihnen selbst erstellten semantischen Typen kategorisiert.
- Cloud Engine for Design: Die Cloud Engine for Design ist ein integrierter „Runner“, der den Benutzern die Verarbeitung von Daten erleichtert, da keine Verarbeitungs-Engines eingerichtet werden müssen. Mit dieser Engine können zwei Objekte parallel ausgeführt werden. Für eine erweiterte Datenverarbeitung wird die Installation der sicheren Remote Engine Gen2 empfohlen.
- Remote Engine Gen2: Bei einer Remote Engine Gen2 handelt es sich um eine sichere Ausführungs-Engine, auf der Objekte sicher ausgeführt werden können. Sie erhalten Kontrolle über Ihre Ausführungsumgebung und Ressourcen, da Sie die Engine in Ihrer eigenen Umgebung (Virtual Private Cloud oder On-Premise) erstellen und konfigurieren können.
Eine Remote Engine gewährleistet Folgendes:
- Datenverarbeitung in einer sicheren und geschützten Umgebung, da Talend nie Zugriff auf Ihre Daten und Ressourcen erhält.
- Optimale Leistung und Sicherheit durch erhöhte Datenlokalität anstelle der Übertragung umfangreicher Datenmengen zur Verarbeitung.
Beziehung zwischen Verbindungen, Datensätzen und Datenaufbereitungen:
Architektur von Talend Cloud Data Preparation
Das Diagramm ist in zwei Hauptteile untergliedert: lokales Netzwerk und Cloud-Infrastruktur.
Lokales Netzwerk
Das lokale Netzwerk umfasst einen Webbrowser, Talend Studio, eine Remote Engine Gen2 und einen Runtime Server.
- Über Ihren Webbrowser können Sie auf Talend Cloud Data Preparation, Talend Dictionary Service und Talend Management Console zugreifen.
- In Talend Studio können Sie die Funktionen von Talend Cloud Data Preparation nutzen, indem Sie die Komponenten tDatasetInput, tDatasetOutput und tDataprepRun einsetzen. Sie können ausgehend von verschiedenen Datenbanken Datensätze erstellen und sie in Talend Cloud Data Preparation exportieren oder eine Datenaufbereitung direkt in einem Datenintegrations-Job oder Spark-Job nutzen.
- Die Remote Engine Gen 1 ermöglicht die Ausführung der Jobs, die Komponenten von Data Preparation verwenden, sowie die On-Premise-Ausführung von Artefakten und Tasks.
- Die Remote Engine Gen2 wird zur Ausführung von Objekten aus den Talend Cloud-Anwendungen, z. B. Datenaufbereitungen, sowie zur Einrichtung von Verbindungen und zum Abrufen von Daten-Samples verwendet.
Cloud-Infrastruktur
Die Cloud-Infrastruktur umfasst Talend Cloud Data Preparation basierend auf dem Datensatzdienst sowie die Cloud Engine for Design.
- Der Datensatzdienst stellt die einheitliche Datensatzliste für Talend Cloud Data Preparation, Talend Cloud Data Inventory und Talend Cloud Pipeline Designer bereit.
- In Talend Management Console können Sie Administrationsrollen, Benutzer, Projekte und Lizenzen verwalten. Sie können neue Benutzer für die Cloud-Anwendungen erstellen und sie benutzerdefinierten Gruppen zuweisen. Anschließend können Sie Rollen festlegen und diese den Benutzern zuweisen. Talend Management Console ermöglicht darüber hinaus den Import Ihrer Lizenzdateien und die Erstellung von Projekten, an denen in Talend Studio gemeinsam gearbeitet werden kann. Des Weiteren können Sie die Daten- und Dateiübertragung, die Datenintegration und den Zugriff auf die freigegebenen Datenquellen für die Webbenutzer aktivieren. So können Sie beispielsweise vorkonfigurierte Beispieltasks importieren und verwenden oder Tasks entwickeln, die den Austausch und die Synchronisation von Daten zwischen Anwendungen automatisieren.
- In Talend Cloud Data Preparation können Sie Ihre Daten aus lokalen Dateien oder anderen Quellen importieren, bereinigen oder durch Erstellung neuer Datenaufbereitungen anreichern.
- In Talend Dictionary Service können Sie semantische Kategorien hinzufügen, entfernen oder ändern, die beim Öffnen in Talend Cloud Data Preparation auf jede Spalte in Ihrem Datenbestand angewendet werden.
- Die Cloud Engine for Design wird zur Ausführung von Artefakten, Tasks und Datenaufbereitungen in der Cloud sowie zur Einrichtung von Verbindungen und zum Abrufen von Daten-Samples verwendet.