Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Datenqualität für verbindungsbasierte Datensätze

InformationshinweisSie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.

Um die Erkennung des semantischen Typs und die Datenqualitätsergebnisse der verbindungsbasierten Datensätze nutzen zu können, müssen Sie eine wichtige erforderliche Einstellung für Ihre Datenverbindungen im Kontext von Datenprodukten einrichten.

  • Die Datenqualität wird für Snowflake- und Databricks-Datensätze sowohl im Pullup- als auch im Pushdown-Modus unterstützt.

  • Die Datenqualität wird für die auf den folgenden Datenbanken basierenden Datensätze im Pullup-Modus unterstützt:

    • Amazon Athena

    • Amazon Redshift

    • Apache Hive

    • Apache Phoenix

    • Apache Spark

    • Azure SQL-Datenbank

    • Azure Synapse Analytics

    • Cassandra

    • Cloudera Impala

    • Couchbase

    • DynamoDB

    • Google BigQuery

    • Marketo

    • Microsoft SQL Server

    • MongoDB

    • MySQL Enterprise Edition

    • Oracle

    • PostgreSQL

    • Presto

    • SAP Hana

    • Snowflake

    • Teradata

Verbindungseinstellungen

Damit Sie Datensätze über eine Verbindung erstellen können und später Zugriff auf deren Schema und Qualität in der Datensatzübersicht und in der Datenproduktübersicht haben, müssen Sie die gleiche Verbindung sowohl in Qlik Talend Data Integration als auch in Qlik Cloud Analytics einrichten.

Angenommen, Sie möchten in einer Datenbank gespeicherte Daten als Datensätze zu Ihrem Katalog hinzufügen und sie in einem Datenprodukt gruppieren, das Sie für eine Analyse-App verwenden möchten.

  1. Klicken Sie in Qlik Talend Data Integration > Verbindungen auf Verbindung erstellen.

  2. Konfigurieren Sie Ihren Zugriff auf die Datenbank mithilfe der Anmeldedaten eines Benutzers mit ausreichenden Berechtigungen und Zugriff auf die Tabellen, die Sie importieren möchten.

  3. Klicken Sie in Qlik Cloud Analytics auf Erstellen und dann auf Datenverbindung.

  4. Konfigurieren Sie den Zugriff auf die gleiche Datenbank wie zuvor, im Idealfall mit den Anmeldedaten des gleichen Benutzers, oder mit denen eines Benutzers, der mindestens die READ-Berechtigung für die Tabellen hat.

  5. (Nur für Snowflake) Im Feld Rolle müssen Sie eine Rolle eingeben, die einer vorhandenen, in der Snowflake-Datenbank erstellten Rolle entspricht und die folgenden Berechtigungen für diese Objekte hat.

    • USAGE on WAREHOUSE

    • USAGE on DATABASE

    • USAGE on SCHEMA

    • CREATE TABLE on SCHEMA

    • CREATE FUNCTION on SCHEMA

    • CREATE VIEW on SCHEMA

    • SELECT on TABLE

  6. (nur für Databricks) In Databricks müssen Sie die folgenden Berechtigungen für die Datenbank festlegen:

    • TABELLE ERSTELLEN

    • VOLUME ERZEUGEN

    • ÄNDERN

    • VOLUME LESEN

    • SELECT

    • SCHEMA VERWENDEN

    • VOLUME SCHREIBEN

  7. Kehren Sie zur Startseite von Qlik Talend Data Integration zurück und klicken Sie auf Neu hinzufügen und dann auf Datenprojekt erstellen.

  8. Verwenden Sie die Verbindung aus Schritt 2 als Quelle für Ihr Projekt und beginnen Sie, Ihre Pipeline zu erstellen. Weitere Informationen finden Sie unter Erstellen eines Daten-Pipeline-Projekts.

  9. Wählen Sie an einer beliebigen Stelle der Pipeline eine Datenaufgabe aus, gehen Sie zu Einstellungen und dann zur Registerkarte Katalog, wo Sie das Kontrollkästchen In Katalog veröffentlichen aktivieren können.

    Das bedeutet, dass diese Version des Datensatzes im Katalog veröffentlicht wird, wenn das Datenprojekt vorbereitet und ausgeführt wurde. Diese Option kann auch auf Projektebene aktiviert werden.

  10. Führen Sie das Datenprojekt aus.

Nach der Ausführung des Datenprojekts ist der neue Datensatz zum Katalog hinzugefügt, und Sie können auf Qualitätsindikatoren und weitere Inhaltsdetails zugreifen. Diese Konfiguration ermöglicht auch die Verwendung von Datensätzen als Quelle für Analyse-Apps.

Sie können so viele Datensätze wie erforderlich hinzufügen, bevor Sie Ihr Datenprodukt erstellen. Da auf den Katalog sowohl vom Qlik Talend Data Integration Hub als auch vom Qlik Cloud AnalyticsServices Hub aus zugegriffen werden kann, können Sie Ihre Datensätze am gewünschten Ort öffnen, und abhängig vom Kontext wird die richtige Verbindung verwendet.

Qualitätsberechnung in Pullup/Pushdown

Verwenden Sie die Schaltfläche Berechnen oder Aktualisieren in der Übersicht Ihres Datensatzes, um eine Qualitätsberechnung für eine Stichprobe von 1.000 Zeilen der Datenbank auszulösen.

Standardmäßig erfolgt dieser Vorgang im Pullup-Modus. Bei Snowflake- und Databricks-Datensätzen kann dieser Vorgang sowohl im Pullup-Modus (Standard) als auch im Pushdown-Modus auf Datenbankseite erfolgen.

Eine Stichprobe von 100 Zeilen wird dann zurück an Qlik Cloud gesendet, wo Sie sie als Vorschau mit aktuellen semantischen Typen und Gültigkeits- sowie Vollständigkeitsstatistiken anzeigen können. Diese Stichprobe wird dann in MongoDB gespeichert.

InformationshinweisDie Datenqualität kann für Datensätze mit mehr als 500 Spalten nicht berechnet werden.

Voraussetzungen für Datenqualität im Pushdown-Modus auf Databricks

Um die Datenqualität im Pushdown-Modus auf Databricks zu berechnen, muss Qlik bestimmte Qualitätsreferenzdaten, wie semantische Typen, mit Ihrer Databricks-Instanz synchronisieren. Es nutzt auch einige erweiterte Funktionen von Databricks.

Damit diese Funktion ordnungsgemäß funktioniert, müssen die folgenden Voraussetzungen auf Ihrer Databricks-Instanz erfüllt sein:

  • Der Unity Catalog muss aktiviert sein.

  • Benutzer, die mit der Databricks-Verbindung verbunden sind, müssen über die Berechtigung zum Erstellen einer Tabelle, Erstellen eines Schemas, Erstellen eines Volumes und Schreiben eines Volumes verfügen.

    Qlik erstellt ein Schema namens qlik_internal in der Datenbank, die in Ihrer Verbindung angegeben ist. Dieses Schema wird von Qlik nicht automatisch entfernt. Sie müssen es manuell löschen, wenn Sie SaaS-Cloud-Infrastruktur nicht mehr verwenden.

  • Sortierungen müssen aktiviert sein.

Was die Einschränkungen betrifft, beachten Sie, dass die Datumserkennung in String-Spalten auf das ISO-8601-Format beschränkt ist.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!