Eingliederung von Daten

Der erste Schritt bei der Erstellung einer Daten-Pipeline in einem Qlik Talend Data Integration-Projekt ist die Eingliederung der Daten. Dazu gehört die Übertragung der Daten aus der Datenquelle und das Speichern von Datensätzen in einem leseoptimierten Format. Sie können Daten mit fortlaufender Änderungsbearbeitung aktualisieren oder geplante Ladevorgänge verwenden.

Sie erstellen die Eingliederung in einer einzelnen Operation, wird aber in zwei Schritten durchgeführt.

Bereitstellung der Daten

Dazu gehört die fortlaufende Übertragung der Daten aus der lokalen Datenquelle in einen Bereitstellungsbereich mithilfe einer Bereitstellungsdatenaufgabe.

Bereitstellen von Daten aus Datenquellen

Sie können Daten auch in einem Lakehouse bereitstellen, wo die Daten in einem Cloud-Dateispeicher bereitgestellt werden. Diese Funktion ist für Snowflake-Projekte verfügbar, bei denen das Bereitstellungsziel auf Cloud-Dateispeicher festgelegt ist.

Bereitstellen von Daten in einem Lakehouse.
Speichern von Datensätzen

Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten oder inkrementelle Ladevorgänge gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicherdatenaufgabe angewendet.

Speichern von Datensätzen

Wenn Sie die Daten eingegliedert haben, können Sie die gespeicherten Datensätze auf verschiedene Weise nutzen.

Sie können die Datensätze in einer Analyse-App verwenden.
Sie können Transformationen erstellen.
Sie können einen Data Mart erstellen.

Onboarding für Daten

Sie starten Eingliederungsdaten in einem Projekt. Datasets werden im Cloud-Daten-Warehouse gespeichert, das im Projekt definiert ist. Weitere Informationen zu Projekten finden Sie unter Erstellen einer Daten-Pipeline.

Klicken Sie im Projekt auf Erstellen und dann auf Daten eingliedern.

TipphinweisSie können auch in einer vorhandenen Quelle im Projekt auf und dann auf Daten eingliedern klicken.
Fügen Sie einen Namen und eine Beschreibung für die Eingliederung hinzu.

Klicken Sie auf Weiter.
Wählen Sie die Quellverbindung aus.

Sie können eine bestehende Quellverbindung auswählen oder eine neue Verbindung zur Quelle erstellen.

Weitere Informationen finden Sie unter Einrichten von Verbindungen zu Datenquellen.

Klicken Sie auf Weiter.
Wählen Sie Daten aus, die geladen werden sollen.

Weitere Informationen finden Sie unter Auswählen von Daten.

Klicken Sie auf Weiter.

Einstellungen wird angezeigt. Dort können Sie die Aktualisierungsmethode und die Verlaufseinstellungen auswählen.
Wählen Sie in Aktualisierungsmethode aus, welche Methode zum Aktualisieren von Daten verwendet werden soll:
- Change Data Capture (CDC)
  
  Wenn Ihre Daten auch Tabellen, die CDC nicht unterstützen, oder Ansichten enthalten, werden zwei Daten-Pipelines erstellt. Eine Pipeline enthält alle Tabellen, die CDC unterstützen, und die andere Pipeline alle anderen Tabellen und Ansichten, die Neu laden und vergleichen verwenden.
- Neu laden und vergleichen
Wählen Sie aus, ob Sie den Verlauf von vorherigen Daten zusätzlich zu aktuellen Daten in Verlauf replizieren möchten.

Klicken Sie auf Weiter, wenn Sie fertig sind.
Wenn Sie nicht Data Movement gateway für den Zugriff auf Ihre Datenquelle verwenden, wird der folgende Abschnitt in den Einstellungen angezeigt:

Replikationsplaner
- Daten replizieren alle: Sie können planen, wie häufig Änderungen an der Datenquelle erfasst werden, und eine Startuhrzeit und ein Startdatum einrichten. Wenn die Quelldatensätze CDC (Change Data Capture) unterstützen, werden nur die Änderungen an den Quelldaten repliziert und auf die entsprechenden Zieltabellen angewendet. Wenn die Quelldatensätze CDC nicht unterstützen (z. B. Ansichten), werden die Änderungen angewendet, indem alle Quelldaten erneut in die entsprechenden Zieltabellen geladen werden. Wenn einige der Quelldatensätze CDC unterstützen und andere nicht, werden zwei getrennte Unteraufgaben erstellt: eine zum erneuten Laden der Datensätze, die CDC nicht unterstützen, und eine zum Erfassen der Änderungen für Datensätze, die CDC unterstützen.
  
  Mit dem Eingliederungs-Einrichtungsassistenten können Sie ein stündliches Intervall planen. Nachdem Sie den Eingliederungs-Assistenten abgeschlossen haben, können Sie verschiedene Planungsoptionen prüfen, wie in Datenreplikations-Aufgabeneinstellungen beschrieben.
Weitere Informationen zu Mindestplanintervallen entsprechend dem Datenquellentyp und der Abonnementstufe finden Sie unter Zulässige Mindestintervalle für die Planung.
Öffnen Sie eine Vorschau der Datenaufgaben, die zur Eingliederung von Daten erstellt werden, und benennen Sie sie bei Bedarf um.

TipphinweisDie Namen werden bei der Benennung von Datenbankschemas in der Speicherdatenaufgabe verwendet. Sie sollten Namen verwenden, die eindeutig sind, um Konflikte mit Datenaufgaben in anderen Projekten zu vermeiden, die dieselbe Datenplattform verwenden.
Wählen Sie, ob Sie eine der erstellten Datenaufgaben öffnen oder zum Projekt zurückkehren möchten.

Wenn Sie bereit sind, klicken Sie auf Beenden.

Die Eingliederungsdatenaufgaben sind jetzt erstellt. Um mit der Replikation von Daten zu beginnen, müssen Sie Folgendes tun:

Die Bereitstellungsdatenaufgabe vorbereiten und ausführen.

Weitere Informationen finden Sie unter Bereitstellen von Daten aus Datenquellen.
Die Speicherdatenaufgabe vorbereiten und ausführen.

Weitere Informationen finden Sie unter Speichern von Datensätzen.

Auswählen von Daten

Sie können bestimmte Tabellen oder Ansichten auswählen oder Auswahlregeln zum Ein- oder Ausschließen von Tabellengruppen verwenden.

Falls die Auswahl Ansichten enthält, wird CDC nicht unterstützt.

Verwenden Sie % als Platzhalter, um ein Auswahlkriterium für Schemas und Tabellen zu definieren.

%.% definiert alle Tabellen in allen Schemas.
Öffentlich.% definiert alle Tabellen im Schema Öffentlich.

Auswahlkriterien bietet Ihnen eine Vorschau anhand Ihrer Auswahl.

Sie haben jetzt folgende Möglichkeiten:

Erstellen Sie eine Regel zum Ein- oder Ausschließen einer Gruppe von Tabellen anhand der Auswahlkriterien.

Klicken Sie auf Regel aus Auswahlkriterien hinzufügen, um eine Regel zu erstellen, und wählen Sie dann entweder Einschließen oder Ausschließen.

Sie können die Regel unter Auswahlregeln sehen.
Wählen Sie einen oder mehrere Datensätze aus und klicken Sie auf Ausgewählte Datasets hinzufügen.

Sie können die hinzugefügten Datensätze unter Explizit ausgewählte Datasets sehen.

Auswahlregeln gelten nur für den aktuellen Satz Tabellen und Ansichten, nicht für Tabellen und Ansichten, die in Zukunft hinzugefügt werden.

VERWANDTE LERNINHALTE:

Verwenden von Qlik Cloud Data Integration zum Onboarding und Umwandeln von Daten

Weitere Informationen

Verwenden von Qlik Cloud Data Integration zum Onboarding und Umwandeln von Daten

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!

Geben Sie hier Ihr Feedback ab