Ausführung und Proxy-Ausführung für Big Data
- Talend Cloud Pipeline Designer: Live-Vorschau, Zugriff auf Datensätze, Ausführung von Pipelines
- Talend Cloud Data Inventory: Erstellung von Verbindungen/Datensätzen, Samples
- Talend Cloud Data Preparation: Zugriff auf Datensätze
Remote Engine Gen2 ist ein Docker-Image, d. h. zu den Implementierungsoptionen gehört die Implementierung auf einer virtuellen Maschine mit Docker oder (vorzugsweise) direkt im jeweils ausgewählten Container-Orchestrierungsdienst. In beiden Fällen kann (und sollte) der Prozess der Einrichtung einer Remote Engine Gen2 von Ihrem eigenen DevOps-Team vollständig automatisiert werden.
- Spark local (Spark lokal) – Pipeline-Ausführung auf einem einzelnen Gerät, keine externen Abhängigkeiten bei der Verarbeitung, jedoch keine horizontale Skalierung. Diese Option befindet sich auf dem IPP-Server in den Referenzarchitektur-Diagrammen.
- Deploy on an edge node (Auf Edge-Knoten implementieren) – Das heißt ein Gerät mit Zugriff auf ein Big Data-Cluster wie Databricks und AWS EMR. Die eigentliche Verarbeitung erfolgt im Cluster, Remote Engine Gen2 fungiert als Runner, der den Prozess instanziiert. Das Gerät, von dem aus der Runner ausgeführt wird, wird im Allgemeinen als Edge-Knoten (Edge Node) bezeichnet, da es über die Positionierung im Netzwerk, die Sicherheitsberechtigungen usw. verfügt, die für den Zugriff auf ein Big Data-Cluster erforderlich sind. Diese Option befindet sich auf dem IPP-Edge-Knoten in den Referenzarchitektur-Diagrammen.
Vorausgesetzt, es sind genügend Remote Engine-Token verfügbar, können Sie sich für eine Implementierung gemäß einem Muster oder beiden Mustern entscheiden, oder sogar für mehrere Instanzen jedes Musters. Wenn beispielsweise zwei verschiedene Teams eine ganz spezifische Positionierung ihrer Remote Engine Gen2 benötigen, um auf ihre Quellen und Ziele zugreifen zu können, so sollte jedes Team über einen IPP-Server und/oder einen IPP-Edge-Knoten verfügen.