Eingliederung von Daten
Der erste Schritt bei der Erstellung einer Daten-Pipeline in einem Qlik Open Lakehouse-Projekt ist die Eingliederung der Daten. Dieser Prozess umfasst die Übertragung der Daten aus der Datenquelle und das Speichern von Datensätzen in optimierten Iceberg-Tabellen. Änderungen aus den Datenquellen werden kontinuierlich in effizienten Mini-Batches auf die Speichertabellen angewendet.
Die Eingliederung wird in einem einzigen Vorgang erstellt, aber in zwei Schritten durchgeführt.
-
Bereitstellung der Daten
Dazu gehört die fortlaufende Übertragung der Daten aus der lokalen Datenquelle in einen Bereitstellungsbereich mithilfe einer Bereitstellungsdatenaufgabe.
Bereitstellen von Daten aus Datenquellen
Sie können Daten auch in einem Lakehouse bereitstellen, wo die Daten in einem S3-Dateispeicher bereitgestellt werden.
-
Speichern von Datensätzen
Hierzu werden der anfängliche Ladevorgang von Bereitstellungsdaten oder inkrementelle Ladevorgänge gelesen und dann die Daten in einem leseoptimierten Format anhand einer Speicherdatenaufgabe angewendet.
Wenn Sie die Daten eingegliedert haben, können Sie die gespeicherten Datensätze auf verschiedene Weise nutzen.
-
Sie können die Datensätze in einer Analyse-App verwenden.
-
Sie können Daten in Snowflake spiegeln, indem Sie eine Spiegeldatenaufgabe direkt zur Speicherdatenaufgabe hinzufügen.
-
Sie können Daten in Snowflake umwandeln, indem Sie eine projektübergreifende Pipeline erstellen, die Daten aus Ihrem Onboarding-Projekt nutzt.
Onboarding für Daten
Sie starten das Onboarding (Eingliedern) von Daten in einem Projekt. Datensätze werden in dem S3-Speicherort gespeichert, der im Projekt definiert ist. Weitere Informationen zu Projekten finden Sie unter Erstellen eines Daten-Pipeline-Projekts.
-
Klicken Sie im Projekt auf Erstellen und dann auf Daten eingliedern.
TipphinweisSie können auch in einer vorhandenen Quelle im Projekt aufund dann auf Daten eingliedern klicken.
-
Fügen Sie einen Namen und eine Beschreibung für die Eingliederung hinzu.
Klicken Sie auf Weiter.
-
Wählen Sie die Quellverbindung aus.
Sie können eine bestehende Quellverbindung auswählen oder eine neue Verbindung zur Quelle erstellen.
Weitere Informationen finden Sie unter Einrichten von Verbindungen zu Datenquellen.
Klicken Sie auf Weiter.
-
Wählen Sie Daten aus, die geladen werden sollen.
Weitere Informationen finden Sie unter Auswählen von Daten.
Klicken Sie auf Weiter.
Einstellungen wird angezeigt. Dort können Sie die Aktualisierungsmethode und die Verlaufseinstellungen auswählen.
-
Wählen Sie in Aktualisierungsmethode aus, welche Methode zum Aktualisieren von Daten verwendet werden soll:
-
Change Data Capture (CDC)
Wenn Ihre Daten Tabellen, die CDC nicht unterstützen, oder Ansichten enthalten, werden zwei Daten-Pipelines erstellt. Eine Pipeline enthält alle Tabellen, die CDC unterstützen, und die andere Pipeline alle anderen Tabellen und Ansichten, die Neu laden und vergleichen verwenden.
-
Neu laden und vergleichen
-
-
Wählen Sie aus, ob Sie den Verlauf von vorherigen Daten zusätzlich zu aktuellen Daten in Verlauf replizieren möchten.
-
Klicken Sie auf Weiter, wenn Sie fertig sind.
-
Öffnen Sie eine Vorschau der Datenaufgaben, die zur Eingliederung von Daten erstellt werden, und benennen Sie sie bei Bedarf um.
TipphinweisDie Namen werden bei der Benennung von Datenbankschemas in der Speicherdatenaufgabe verwendet. Sie sollten Namen verwenden, die eindeutig sind, um Konflikte mit Datenaufgaben in anderen Projekten zu vermeiden, die dieselbe Datenplattform verwenden. -
Wählen Sie, ob Sie eine der erstellten Datenaufgaben öffnen oder zum Projekt zurückkehren möchten.
Wenn Sie bereit sind, klicken Sie auf Beenden.
-
Die Eingliederungsdatenaufgaben sind jetzt erstellt. Um mit der Replikation von Daten zu beginnen, müssen Sie Folgendes tun:
-
Die Bereitstellungsdatenaufgabe vorbereiten und ausführen.
Weitere Informationen finden Sie unter Bereitstellen von Daten aus Datenquellen.
-
Die Speicherdatenaufgabe vorbereiten und ausführen.
Weitere Informationen finden Sie unter Speichern von Datensätzen.
Auswählen von Daten
Sie können bestimmte Tabellen oder Ansichten auswählen oder Auswahlregeln zum Ein- oder Ausschließen von Tabellengruppen verwenden.
Verwenden Sie % als Platzhalter, um ein Auswahlkriterium für Schemas und Tabellen zu definieren.
-
%.% definiert alle Tabellen in allen Schemas.
-
Öffentlich.% definiert alle Tabellen im Schema Öffentlich.
Auswahlkriterien bietet Ihnen eine Vorschau anhand Ihrer Auswahl.
Sie haben jetzt folgende Möglichkeiten:
-
Erstellen Sie eine Regel zum Ein- oder Ausschließen einer Gruppe von Tabellen anhand der Auswahlkriterien.
Klicken Sie auf Regel aus Auswahlkriterien hinzufügen, um eine Regel zu erstellen, und wählen Sie dann entweder Einschließen oder Ausschließen.
Sie können die Regel unter Auswahlregeln sehen.
-
Wählen Sie einen oder mehrere Datensätze aus und klicken Sie auf Ausgewählte Datasets hinzufügen.
Sie können die hinzugefügten Datensätze unter Explizit ausgewählte Datasets sehen.
Auswahlregeln gelten nur für den aktuellen Satz Tabellen und Ansichten, nicht für Tabellen und Ansichten, die in Zukunft hinzugefügt werden.