AWS S3 Data Stream
Stellen Sie eine Verbindung zu Ihrem AWS S3 Data Stream her, um ihn als Datenquelle in Ihren Qlik Open Lakehouse Projekten zu verwenden. AWS S3 Data Stream-Verbindungen können nur mit der Streaming-Bereitstellungsaufgabe und der Streaming-Umwandlungsaufgabe verwendet werden.
Im Gegensatz zu traditionellem Batch-ETL von S3 behandelt diese Implementierung S3 als Streaming-Quelle mit kontinuierlicher Überwachung und Datenerfassung nahezu in Echtzeit. Sie können Streams so konfigurieren, dass sie Daten aus S3-Buckets automatisch erfassen, sobald neue Dateien eintreffen. Der AWS S3 Data Stream ermöglicht es Ihnen, Streaming-Daten-Pipelines von S3 zu konfigurieren, einschließlich Dateimusterabgleich, Schemakonfiguration und anfänglichen Auffülloptionen. Der Stream überwacht S3 kontinuierlich und erfasst neue Daten nahezu in Echtzeit (innerhalb von Minuten). Er ist ideal für Organisationsdaten wie Protokolle, Ereignisse, Exporte aus externen Systemen oder Partnerdaten-Feeds.
Voraussetzungen
Um eine Verbindung zu Ihrem AWS S3 Data Stream zu erstellen, benötigen Sie:
-
Wenn Sie eine rollenbasierte Authentifizierung für den Zugriff auf den Bucket verwenden, benötigen Sie:
-
Berechtigung zum Zugriff auf die Netzwerkintegration, die Sie für die Verbindung verwenden möchten.
-
Die ARN-Rolle, oder Sie können eine während des Einrichtungsprozesses erstellen. Der Netzwerkintegrationscluster muss Zugriff auf das ARN S3-Konto haben.
-
-
Wenn Sie eine schlüsselbasierte Authentifizierung für die Verbindung zum Bucket verwenden, ist Folgendes erforderlich:
-
Ihre AWS-Zugriffsschlüssel-ID.
-
Ihren geheimen AWS-Zugriffsschlüssel.
-
Einrichten von S3 Data Stream-Verbindungseigenschaften
Gehen Sie wie folgt vor, um die S3-Verbindung zu konfigurieren:
-
Klicken Sie in Verbindungen auf Verbindung erstellen.
-
Wählen Sie den Bereich aus, in dem Sie die Verbindung erstellen möchten, oder wählen Sie Neuen Datenbereich erstellen aus.
-
Wählen Sie S3 aus der Konnektor-Namensliste aus oder verwenden Sie das Feld Suchen. Stellen Sie sicher, dass der Typ Quelle und die Kategorie Streaming ist.
-
Geben Sie unter S3-URI die URI für Ihren S3-Bucket im Format s3://<bucket-name>/<directory-name> ein.
Weitere Informationen und Beispiele finden Sie unter Syntaxbeispiele.
-
Unter Authentifizierungstyp wählen Sie aus, wie Sie eine Verbindung herstellen möchten, und konfigurieren Sie die Einstellungen.
Rollenbasiert
Führen Sie die folgenden Schritte aus, um die rollenbasierte Authentifizierung zu verwenden.
ARN-Rolle erstellen
-
Netzwerkintegration: Wählen Sie die Netzwerkintegration aus der Liste aus.
-
ARN-Rolle: Geben Sie die in AWS erstellte ARN-Rolle ein. Sie muss im Format arn:aws:iam::{account number}:role/{role name} vorliegen.
AWS-Rolle erstellen
Befolgen Sie die Schritte, um eine AWS-Rolle zu erstellen:
-
Rolle erstellen
-
Gehen Sie in der AWS Console zu IAM.
-
Klicken Sie unter Roles auf Create role und konfigurieren Sie die Rolle:
-
Trusted entity type: Wählen Sie Custom trust policy aus.
-
Anweisung: Kopieren Sie die in AWS-Rolle erstellen in Qlik Cloud erstellte Vertrauenswürdige Entität-Richtlinie in den Codebereich in AWS.
-
Erstellen Sie die Rolle.
-
-
Inline-Richtlinie erstellen
-
Klicken Sie in der AWS-Konsole unter Rollen auf die Rolle, die Sie in Schritt 1 erstellt haben.
-
Klicken Sie in Berechtigungsrichtlinien auf Richtlinien hinzufügen > Inline-Richtlinie erstellen.
-
Kopieren Sie den Code in Qlik Cloud und fügen Sie ihn in die Richtlinie in AWS ein.
-
-
ARN-Rolle kopieren
-
Suchen Sie auf der Seite Rollen in der AWS-Konsole den ARN-Wert im Abschnitt Zusammenfassung.
-
Kopieren Sie den ARN und fügen Sie ihn in ARN-Rolle in Qlik Cloud ein.
-
Zugriffsschlüssel
Führen Sie die folgenden Schritte aus, um einen Zugriffsschlüssel zur Authentifizierung Ihrer Verbindung zu verwenden:
-
Zugriffsschlüssel: Geben Sie Ihre eindeutige AWS-Zugriffsschlüssel-ID ein, die Sie für die Authentifizierung verwenden möchten.
-
Geheimer Schlüssel: Geben Sie Ihren geheimen AWS-Zugriffsschlüssel ein, den Sie zusammen mit Ihrem Zugangsschlüssel verwenden.
- Richtlinie erstellen
-
Gehen Sie in der AWS Console zu IAM.
-
Navigieren Sie zu Richtlinien > Richtlinie erstellen.
-
Kopieren Sie in Qlik Cloud im Dialogfeld AWS-Rolle erstellen die Richtlinie.
-
Fügen Sie in AWS im Richtlinien-Editor die Richtlinie ein.
-
-
Neue Richtlinie an einen Benutzer anfügen
-
Hängen Sie die neue Richtlinie an den Benutzer an, dem Sie Zugriff gewähren möchten.
-
Verbindung erstellen
Wenn Sie die Sicherheitsmethode konfiguriert haben, führen Sie die folgenden Schritte aus, um die Verbindung zu erstellen:
-
Geben Sie in Name den Anzeigenamen für die Verbindung ein, zum Beispiel My AWS S3 Streaming Source connection.
-
Klicken Sie auf Verbindung testen, um die Anmeldeinformationen zu überprüfen.
-
Klicken Sie auf Erstellen.
Syntaxbeispiele
| Syntax | Beschreibung | Beispiel |
|---|---|---|
| Text | Allgemeine Text-/Zeichenfolgeneingabe basierend auf den AWS-Richtlinien zur Benennung von Amazon S3-Objekten. | s3://MyS3Bucket/MyDir/MyFile.csv |
| Wildcard | Ein *-Zeichen, das als „Wildcard“ im Pfad/Dateinamen fungiert. Mit einer Wildcard in einem Pfad werden alle Ordner und Unterordner aus diesem Pfad eingeschlossen. | myS3Bucket/myDir/* myS3Bucket/myDir/*.csv myS3Bucket/myDir/*_customers.csv myS3Bucket/regions/*/*_customers.csv |
| Muster | Die Syntax des Datumsmusters gibt die Position des Datumsmusters innerhalb des Dateinamens an. | myS3Bucket/myDir/<yyyy>_<MM>_<dd>_<HH>_<mm>_orders.csv myS3Bucket/myDir/<yyyy>/<MM>/<dd>/<HH>_<mm>_orders.csv |
Benennungsregeln für den Zieldatensatz
Für den Namen des Zieldatensatzes gilt:
-
Er muss eindeutig sein und darf nicht bereits von anderen Datensätzen im Zielkatalog verwendet werden.
-
Halten Sie sich an die Benennungsregeln für den Zielkatalog:
-
Beginnen Sie mit einem Buchstaben (A–Z, a–z) oder einem Unterstrich (_).
-
Der Name darf nur Buchstaben, Unterstriche, Ziffern (0–9) oder das Dollarzeichen ($) enthalten.
-
Er darf 255 Zeichen, einschließlich Leerzeichen, nicht überschreiten.
-