Datenqualität für verbindungsbasierte Datensätze

Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.

Um die Erkennung des semantischen Typs und die Datenqualitätsergebnisse der verbindungsbasierten Datensätze nutzen zu können, müssen Sie eine wichtige erforderliche Einstellung für Ihre Datenverbindungen im Kontext von Datenprodukten einrichten.

Die Datenqualität wird für Snowflake- und Databricks-Datensätze sowohl im Pullup- als auch im Pushdown-Modus unterstützt.
Die Datenqualität wird für die auf den folgenden Datenbanken basierenden Datensätze im Pullup-Modus unterstützt:
- Amazon Athena
- Amazon Redshift
- Apache Hive
- Apache Phoenix
- Apache Spark
- Azure SQL-Datenbank
- Azure Synapse Analytics
- Cassandra
- Cloudera Impala
- Couchbase
- DynamoDB
- Google BigQuery
- Marketo
- Microsoft SQL Server
- MongoDB
- MySQL Enterprise Edition
- Oracle
- PostgreSQL
- Presto
- SAP Hana
- Snowflake
- Teradata

Erstellen verbindungsbasierter Datensätze

Sie können verbindungsbasierte Datensätze anhand des Katalogs erstellen. Sie können aber auch Pipeline-Projekte verwenden.

Wenn Sie Datensätze anhand eines Pipeline-Projekts erstellen, können Sie die gesamte Datenintegration innerhalb eines Projekts mithilfe von Datenaufgaben durchführen. Weitere Informationen finden Sie unter Erstellen eines Daten-Pipeline-Projekts.

Erstellen von Datensätzen anhand des Katalogs

Wenn Sie kein Pipeline-Projekt verwenden müssen, können Sie Datensätze erstellen, um die Datenqualität zu berechnen und die Datensätze über Datenprodukte zu nutzen.

Klicken Sie in Qlik Talend Data Integration > Katalog auf Neu erstellen > Datensatz.
Wählen Sie die Verbindung aus und klicken Sie auf Weiter.
Wählen Sie die Datensätze aus und klicken Sie auf Weiter.
Befindet sich ein Datensatz nicht in der Liste, bedeutet dies, dass es nicht in einem der unterstützten Formate vorliegt:
- Excel-Dateien:.xls, .xlsx
- Textdateien mit Trennzeichen:.csv, .txt
- Excel-Dateien:.xls, .xlsx
- JSON-Dateien:.json
- XML-Dateien:.xml
- Qlik Datendateien:.qvd (QlikView Data), .qvx (QlikView Exchange)
- Parquet-Dateien:.parquet
- KML-Dateien:.kml (Geographic data)
Wählen Sie den Bereich aus und klicken Sie auf Datensätze erstellen. Sie werden an den Katalog weitergeleitet, und die neuen Datensätze werden in der Liste angezeigt.

Sie können die Datenqualität jetzt berechnen und die Datensätze zu Datenprodukten hinzufügen. Weitere Informationen finden Sie unter Konfigurieren der Datenqualitätsberechnung.

Erstellen von Datensätzen anhand eines Pipeline-Projekts

Klicken Sie in Qlik Talend Data Integration > Verbindungen auf Verbindung erstellen.
Konfigurieren Sie Ihren Zugriff auf die Datenbank mithilfe der Anmeldedaten eines Benutzers mit ausreichenden Berechtigungen und Zugriff auf die Tabellen, die Sie importieren möchten.
Klicken Sie in Qlik Cloud Analytics auf Erstellen und dann auf Datenverbindung.
Konfigurieren Sie den Zugriff auf die gleiche Datenbank wie zuvor, im Idealfall mit den Anmeldedaten des gleichen Benutzers, oder mit denen eines Benutzers, der mindestens die READ-Berechtigung für die Tabellen hat.
(Nur für Snowflake) Im Feld Rolle müssen Sie eine Rolle eingeben, die einer vorhandenen, in der Snowflake-Datenbank erstellten Rolle entspricht und die folgenden Berechtigungen für diese Objekte hat.
- USAGE on WAREHOUSE
- USAGE on DATABASE
- USAGE on SCHEMA
- CREATE TABLE on SCHEMA
- CREATE FUNCTION on SCHEMA
- CREATE VIEW on SCHEMA
- SELECT on TABLE
(nur für Databricks) In Databricks müssen Sie die folgenden Berechtigungen für die Datenbank festlegen:
- TABELLE ERSTELLEN
- VOLUME ERZEUGEN
- ÄNDERN
- VOLUME LESEN
- SELECT
- SCHEMA VERWENDEN
- VOLUME SCHREIBEN
Kehren Sie zur Startseite von Qlik Talend Data Integration zurück und klicken Sie auf Neu erstellen und dann auf Pipeline-Projekt erstellen.
Verwenden Sie die Verbindung aus Schritt 2 als Quelle für Ihr Projekt und beginnen Sie, Ihre Pipeline zu erstellen. Weitere Informationen finden Sie unter Erstellen eines Daten-Pipeline-Projekts.
Wählen Sie an einer beliebigen Stelle der Pipeline eine Datenaufgabe aus, gehen Sie zu Einstellungen und dann zur Registerkarte Katalog, wo Sie das Kontrollkästchen In Katalog veröffentlichen aktivieren können.

Das bedeutet, dass diese Version des Datensatzes im Katalog veröffentlicht wird, wenn das Pipeline-Projekt vorbereitet und ausgeführt wurde. Diese Option kann auch auf Projektebene aktiviert werden.
Führen Sie das Datenprojekt aus.

Nach der Ausführung des Pipeline-Projekts wird der neue Datensatz zum Katalog hinzugefügt, und Sie können auf Qualitätsindikatoren und weitere Inhaltsdetails zugreifen. Diese Konfiguration ermöglicht auch die Verwendung von Datensätzen als Quelle für Analyse-Apps.

Sie können so viele Datensätze wie erforderlich hinzufügen, bevor Sie Ihr Datenprodukt erstellen. Da auf den Katalog sowohl vom Qlik Talend Data Integration Hub als auch vom Qlik Cloud AnalyticsServices Hub aus zugegriffen werden kann, können Sie Ihre Datensätze am gewünschten Ort öffnen, und abhängig vom Kontext wird die richtige Verbindung verwendet.

Qualitätsberechnung in Pullup/Pushdown

Verwenden Sie die Schaltfläche Berechnen oder Aktualisieren in der Übersicht Ihres Datensatzes, um eine Qualitätsberechnung für eine Stichprobe von 1.000 Zeilen der Datenbank auszulösen.

Standardmäßig erfolgt dieser Vorgang im Pullup-Modus. Bei Snowflake- und Databricks-Datensätzen kann dieser Vorgang sowohl im Pullup-Modus (Standard) als auch im Pushdown-Modus auf Datenbankseite erfolgen.

Eine Stichprobe von 100 Zeilen wird dann zurück an Qlik Cloud gesendet, wo Sie sie als Vorschau mit aktuellen semantischen Typen und Gültigkeits- sowie Vollständigkeitsstatistiken anzeigen können. Diese Stichprobe wird dann in MongoDB gespeichert.

Die Datenqualität kann für Datensätze mit mehr als 500 Spalten nicht berechnet werden.

Voraussetzungen für Datenqualität im Pushdown-Modus auf Databricks

Um die Datenqualität im Pushdown-Modus auf Databricks zu berechnen, muss Qlik bestimmte Qualitätsreferenzdaten, wie semantische Typen, mit Ihrer Databricks-Instanz synchronisieren. Es nutzt auch einige erweiterte Funktionen von Databricks.

Damit diese Funktion ordnungsgemäß funktioniert, müssen die folgenden Voraussetzungen auf Ihrer Databricks-Instanz erfüllt sein:

Der Unity Catalog muss aktiviert sein.
Benutzer, die mit der Databricks-Verbindung verbunden sind, müssen über die Berechtigung zum Erstellen einer Tabelle, Erstellen eines Schemas, Erstellen eines Volumes und Schreiben eines Volumes verfügen.

Qlik erstellt ein Schema namens qlik_internal in der Datenbank, die in Ihrer Verbindung angegeben ist. Dieses Schema wird von Qlik nicht automatisch entfernt. Sie müssen es manuell löschen, wenn Sie SaaS-Cloud-Infrastruktur nicht mehr verwenden.
Sortierungen müssen aktiviert sein.

Was die Einschränkungen betrifft, beachten Sie, dass die Datumserkennung in String-Spalten auf das ISO-8601-Format beschränkt ist.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab