Eingliederung von Daten
Der erste Schritt bei der Erstellung einer Daten-Pipeline in einem Qlik Talend Data Integration-Projekt ist die Eingliederung der Daten. Dazu gehört die Übertragung der Daten aus der Datenquelle und das Speichern von Datensätzen in einem leseoptimierten Format. Sie können Daten mit fortlaufender Änderungsbearbeitung aktualisieren oder geplante Ladevorgänge verwenden.
Sie erstellen die Eingliederung in einer einzelnen Operation, wird aber in zwei Schritten durchgeführt.
-
Bereitstellung der Daten
Dazu gehört die fortlaufende Übertragung der Daten aus der lokalen Datenquelle in einen Bereitstellungsbereich mithilfe einer Bereitstellungsdatenaufgabe.
-
Speichern von Datensätzen
Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten oder inkrementelle Ladevorgänge gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicherdatenaufgabe angewendet.
Wenn Sie die Daten eingegliedert haben, können Sie die gespeicherten Datensätze auf verschiedene Weise nutzen.
-
Sie können die Datensätze in einer Analyse-App verwenden.
-
Sie können Transformationen erstellen.
-
Sie können einen Data Mart erstellen.
Onboarding für Daten
Sie starten Eingliederungsdaten in einem Projekt. Datasets werden im Cloud-Daten-Warehouse gespeichert, das im Projekt definiert ist. Weitere Informationen zu Projekten finden Sie unter Erstellen einer Daten-Pipeline.
-
Klicken Sie im Projekt auf Erstellen und dann auf Daten eingliedern.
TipphinweisSie können auch in einer vorhandenen Quelle im Projekt auf und dann auf Daten eingliedern klicken. -
Fügen Sie einen Namen und eine Beschreibung für die Eingliederung (Onboarding) hinzu.
Klicken Sie auf Weiter.
-
Wählen Sie die Quellverbindung aus.
Sie können eine bestehende Quellverbindung auswählen oder eine neue Verbindung zur Quelle erstellen.
Weitere Informationen finden Sie unter Einrichten von Verbindungen zu Datenquellen.
Klicken Sie auf Weiter.
-
Wählen Sie Daten aus, die geladen werden sollen.
Weitere Informationen finden Sie unter Auswählen von Daten.
Klicken Sie auf Weiter.
Einstellungen wird angezeigt. Dort können Sie die Aktualisierungsmethode und die Verlaufseinstellungen auswählen.
-
Wählen Sie in Aktualisierungsmethode aus, welche Methode zum Aktualisieren von Daten verwendet werden soll:
-
Change Data Capture (CDC)
Wenn Ihre Daten auch Tabellen, die CDC nicht unterstützen, oder Ansichten enthalten, werden zwei Daten-Pipelines erstellt. Eine Pipeline enthält alle Tabellen, die CDC unterstützen, und die andere Pipeline alle anderen Tabellen und Ansichten, die Neu laden und vergleichen verwenden.
-
Neu laden und vergleichen
-
-
Wählen Sie aus, ob Sie den Verlauf von vorherigen Daten zusätzlich zu aktuellen Daten in Verlauf replizieren möchten.
Klicken Sie auf Weiter, wenn Sie fertig sind.
-
Wenn Sie nicht Data Movement Gateway für den Zugriff auf Ihre Datenquelle verwenden, wird der folgende Abschnitt in den Einstellungen angezeigt:
Replikationsplaner
-
Daten replizieren alle: Sie können planen, wie häufig Änderungen an der Datenquelle erfasst werden, und eine Startuhrzeit und ein Startdatum einrichten. Wenn die Quelldatensätze CDC (Change Data Capture) unterstützen, werden nur die Änderungen an den Quelldaten repliziert und auf die entsprechenden Zieltabellen angewendet. Wenn die Quelldatensätze CDC nicht unterstützen (z. B. Ansichten), werden die Änderungen angewendet, indem alle Quelldaten erneut in die entsprechenden Zieltabellen geladen werden. Wenn einige der Quelldatensätze CDC unterstützen und andere nicht, werden zwei getrennte Unteraufgaben erstellt: eine zum erneuten Laden der Datensätze, die CDC nicht unterstützen, und eine zum Erfassen der Änderungen für Datensätze, die CDC unterstützen.
Mit dem Eingliederungs-Einrichtungsassistenten können Sie ein stündliches Intervall planen. Nachdem Sie den Eingliederungs-Assistenten abgeschlossen haben, können Sie verschiedene Planungsoptionen prüfen, wie in Planen von Aufgaben beim Arbeiten ohne Data Movement Gateway beschrieben.
Weitere Informationen zu Mindestplanintervallen entsprechend dem Datenquellentyp und der Abonnementstufe finden Sie unter Zulässige Mindestintervalle für die Planung.
-
-
Öffnen Sie eine Vorschau der Datenaufgaben, die zur Eingliederung von Daten erstellt werden, und benennen Sie sie bei Bedarf um.
TipphinweisDie Namen werden verwendet, wenn Datenbankschemas im Speicherdatenobjekt benannt werden. Da ein Schema nur einer Aufgabe zugewiesen werden kann, sollten Sie Namen verwenden, die eindeutig sind, um Konflikte mit Datenobjekten in anderen Projekten zu vermeiden, die dieselbe Datenplattform verwenden. -
Wählen Sie, ob Sie eine der erstellten Datenaufgaben öffnen oder zum Projekt zurückkehren möchten.
Wenn Sie bereit sind, klicken Sie auf Beenden.
Die Eingliederungsdatenaufgaben sind jetzt erstellt. Um mit der Replikation von Daten zu beginnen, müssen Sie Folgendes tun:
-
Die Bereitstellungsdatenaufgabe vorbereiten und ausführen.
Weitere Informationen finden Sie unter Bereitstellen von Daten aus Datenquellen.
-
Die Speicherdatenaufgabe vorbereiten und ausführen.
Weitere Informationen finden Sie unter Speichern von Datensätzen.
Auswählen von Daten
Sie können bestimmte Tabellen oder Ansichten auswählen oder Auswahlregeln zum Ein- oder Ausschließen von Tabellengruppen verwenden.
Verwenden Sie % als Platzhalter, um ein Auswahlkriterium für Schemas und Tabellen zu definieren.
-
%.% definiert alle Tabellen in allen Schemas.
-
Öffentlich.% definiert alle Tabellen im Schema Öffentlich.
Auswahlkriterien bietet Ihnen eine Vorschau anhand Ihrer Auswahl.
Sie haben jetzt folgende Möglichkeiten:
-
Erstellen Sie eine Regel zum Ein- oder Ausschließen einer Gruppe von Tabellen anhand der Auswahlkriterien.
Klicken Sie auf Regel aus Auswahlkriterien hinzufügen, um eine Regel zu erstellen, und wählen Sie dann entweder Einschließen oder Ausschließen.
Sie können die Regel unter Auswahlregeln sehen.
-
Wählen Sie einen oder mehrere Datensätze aus und klicken Sie auf Ausgewählte Datasets hinzufügen.
Sie können die hinzugefügten Datensätze unter Explizit ausgewählte Datasets sehen.
Auswahlregeln gelten nur für den aktuellen Satz Tabellen und Ansichten, nicht für Tabellen und Ansichten, die in Zukunft hinzugefügt werden.