Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Filtern von Daten zu Verbrechen in Google BigQuery-Tabellen

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Beispiel einer Pipeline, die anhand der nachfolgenden Anleitungen erstellt wurde.

Vorbereitungen

  • Wenn Sie dieses Szenario nachvollziehen möchten, können Sie den offenen BigQuery-Datensatz chicago_crime (Verbrechen in Chicago) verwenden, der öffentlich zum Gebrauch zur Verfügung steht.

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.

    Example

    BigQuery
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    InformationshinweisAnmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie den Typ der zu erstellenden Verbindung aus.
    Wählen Sie Google BigQuery aus.
  5. Geben Sie die Verbindungseigenschaften für den Zugriff auf Ihr BigQuery-Projekt wie in Eigenschaften von Google BigQuery beschrieben ein, u. a. den Projektnamen und die JSON-Anmeldedaten, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
  6. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein: chicago crime (Verbrechen in Chicago).
  7. Geben Sie die erforderlichen Eigenschaften für den Zugriff auf die Datei in Ihrem BigQuery-Bucket ein (Datensatzname, Tabellenname oder Abfrage) und klicken Sie dann auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatz-Samples anzuzeigen.
    Konfiguration zum Erstellen eines neuen BigQuery-Datensatzes.
  8. Klicken Sie auf Validate (Validieren), um den Datensatz zu speichern.
  9. Gehen Sie genauso vor, um den BigQuery-Tabellendatensatz hinzuzufügen, der als Ziel in Ihrer Pipeline verwendet werden sollen.
  10. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  11. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN), um ein Fenster zu öffnen, in dem Sie Ihre Quelldaten auswählen können, in diesem Fall ein öffentlicher Datensatz mit Verbrechen in Chicago, der in einer BigQuery-Tabelle gespeichert ist.
  12. Wählen Sie den Datensatz aus und klicken Sie auf Select (Auswählen), um ihn zur Pipeline hinzuzufügen.
    Benennen Sie ihn um, falls erforderlich.
  13. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen weiteren Prozessor des Typs Field selector (Feldauswahl) zur Pipeline hinzu. Daraufhin wird das Konfigurationsfenster geöffnet.
  14. Geben Sie einen sinnvollen Namen für den Prozessor an.

    Example

    select crime detail fields (Felder mit Verbrechensdetails auswählen)
  15. Im Bereich Selectors (Selektoren) im Modus Advanced (Erweitert):
    1. Geben Sie .case_number (Fallnummer) in der Liste Input (Eingabe) und case_id (Fall-ID) in der Liste Output (Ausgabe) ein bzw. wählen Sie die Werte aus, da Sie das Feld case_number (Fallnummer) auswählen und umbenennen möchten.
    2. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, und geben Sie .description (Beschreibung) in der Liste Input (Eingabe) und desc (Beschr.) in der Liste Output (Ausgabe) ein bzw. wählen Sie die Werte aus, da Sie das Feld description (Beschreibung) auswählen und umbenennen möchten.
    3. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, und geben Sie .primary_type (Primärtyp) in der Liste Input (Eingabe) und crime_type (Deliktart) in der Liste Output (Ausgabe) ein bzw. wählen Sie die Werte aus, da Sie das Feld primary_type (Primärtyp) auswählen möchten.
    4. Klicken Sie auf das Pluszeichen (+), um ein neues Element hinzuzufügen, und geben Sie .location_description (Standortbeschreibung) in der Liste Input (Eingabe) und location (Standort) in der Liste Output (Ausgabe) ein bzw. wählen Sie die Werte aus, da Sie das Feld locations_description (Standortbeschreibung) auswählen möchten.
  16. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.

    (Optional) Sehen Sie sich die Vorschau des Prozessors an, um zu prüfen, wie die Daten nach der Umstrukturierung aussehen.

  17. Klicken Sie auf add processor (Prozessor hinzufügen) und fügen Sie einen Filter-Prozessor zur Pipeline hinzu. Legen Sie einen aussagekräftigen Namen fest.

    Example

    filter on 1st degree murders (Morde ersten Grades ausfiltern)
  18. Konfigurieren Sie den Prozessor:
    1. Fügen Sie ein neues Element hinzu und wählen Sie .crime_type (Verbrechenstyp) in der Liste Input (Eingabe) aus, da die lokalen und domänenspezifischen Teile der E-Mailadressen der Kunden getrennt werden sollen.
    2. Wählen Sie NONE (KEINE) in der Liste Optionally select a function to apply (Optional anzuwendende Funktion auswählen) aus.
    3. Wählen Sie == in der Liste Operator aus.
    4. Geben Sie HOMICIDE (TÖTUNGSDELIKT) in das Feld Value (Wert) ein, da Tötungsdelikte ausgefiltert werden sollen.
    5. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  19. (Option) Sehen Sie sich die Vorschau des Filter-Prozessors an, um zu prüfen, wie Ihr Daten-Sample nach dem Filtervorgang aussieht.
    In der Ausgabedatenvorschau kann der Operator „homicide (Mord)“ in der Spalte „crime type (Verbrechenstyp)“ zugewiesen werden.
  20. Klicken Sie auf ADD DESTINATION (ZIEL HINZUFÜGEN) und wählen Sie die Datensatztabelle aus, die Ihre neu organisierten Daten aufnehmen soll.
    Benennen Sie den Datensatz um, falls erforderlich.
  21. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  22. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die Verbrechensdaten wurden verarbeitet und Tötungsdelikte isoliert und der Ausgabe-Flow wird an die von Ihnen angegebene Google BigQuery-Tabelle gesendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!