Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Bereitstellen von Daten in einem Lakehouse

Sie können Daten in einem Snowflake Data Lakehouse bereitstellen. Dabei werden die Daten von der Datenquelle in einen Cloud-Dateispeicher übertragen, der von der Datenplattform verwaltet wird.

Bei der Bereitstellung von Daten in einem Lakehouse entfällt im Vergleich zur regulären Bereitstellung in einem Data Warehouse die kostspielige Nutzung des Data Warehouse. So können Sie Daten in hoher Frequenz bereitstellen und je nach Bedarf in geringerer Frequenz nutzen. Möglicherweise können Sie auch leichter Daten mit anderen Plattformen austauschen. Sie können Iceberg-Tabellen mit Snowflake Open Catalog synchronisieren, um die Interoperabilität mit anderen Tools wie z. B. Apache Spark zu ermöglichen.

Das Bereitstellen von Daten in einem Lakehouse ist nur in Projekten mit Snowflake als Datenplattform verfügbar.

Vorbereitungen

  • Wenn Sie Iceberg-Tabellen mit Snowflake Open Catalog synchronisieren möchten, müssen Sie eine Katalogintegration in Ihrer Snowflake-Instanz einrichten. Der Name dieser Integration wird bei der Erstellung der Aufgabe benötigt. Weitere Informationen finden Sie unter CREATE CATALOG INTEGRATION (Snowflake Open Catalog).

  • Sie können zwar die Quell- und Zielverbindungseinstellungen im Aufgabeneinrichtungs-Assistenten konfigurieren. Zum Vereinfachen der Einrichtung wird aber empfohlen, dies vor Erstellen der Aufgabe zu tun.

Erstellen einer Lake-Bereitstellungsaufgabe

  1. Erstellen Sie ein Projekt und wählen Sie in Anwendungsfall die Option Daten-Pipeline aus.

  2. Wählen Sie unter Datenplattform die Option Snowflake aus und richten Sie eine Verbindung zum Data Warehouse ein.

    Weitere Informationen zu den Einstellungen für das Snowflake-Ziel finden Sie unter Snowflake.

  3. Wählen Sie in Bereitstellungsziel die Option Cloud-Speicher aus.

  4. Richten Sie in Cloud-Speicherverbindung einen Bereitstellungsbereich ein.

    Sie können die folgenden Verbindungstypen verwenden:

  5. Legen Sie den Namen der Snowflake-Speicherintegration fest. Weitere Informationen finden Sie in der Snowflake-Dokumentation für den von Ihnen gewählten Speicherbereich.

  6. Wählen Sie aus, welcher Tabellentyp standardmäßig für Speicher-, Umwandlungs- und Data Mart-Aufgaben erstellt werden soll. Diese Einstellung kann später in den Projekteinstellungen geändert werden. Sie können auch den Tabellentyp für jede einzelne Aufgabe im Projekt festlegen.

    • Snowflake-Tabellen

    • Von Snowflake verwaltete Iceberg-Tabellen

      In diesem Fall müssen Sie den Standardnamen des externen Volumes in Externes Standard-Volume festlegen.

      InformationshinweisIceberg-Tabellen erben die Richtlinie zur Speicherserialisierung, die auf Schema-, Datenbank- oder Kontoebene festgelegt wurde. Dies kann die Interoperabilität mit anderen Produkten beeinträchtigen, die Tabellen direkt über Snowflake lesen.
  7. Klicken Sie auf „Erstellen“, um das Projekt zu erstellen.

Wenn Sie Daten eingliedern oder eine Bereitstellungsaufgabe im Projekt erstellen, wird eine Lake-Bereitstellungsaufgabe anstelle einer Bereitstellungsaufgabe erstellt. Lake-Bereitstellungsaufgaben funktionieren und verhalten sich größtenteils wie Bereitstellungsaufgaben, mit dem Unterschied, dass sie Daten in Cloud-Speicher bereitstellen. Weitere Informationen finden Sie unter Bereitstellen von Daten aus Datenquellen.

Alle Dateien werden im CSV-Format bereitgestellt. Die Speicheraufgabe, die die Bereitstellungsaufgabe nutzt, sorgt dafür, dass die externen Tabellen nach der Aktualisierung der Bereitstellungsdaten aktualisiert werden.

Einstellungen

Weitere Informationen zu Aufgabeneinstellungen finden Sie unter Lake-Bereitstellungseinstellungen.

Einschränkungen

  • Es ist nicht möglich, einen Tabellenpfad zu ändern, nachdem er erstellt wurde. Dazu gehört auch die Umbenennung der Tabelle.

  • Wenn Bereitstellungstabellen als externe Tabellen verwendet werden, sind Speicher-Live-Ansichten deaktiviert.

  • Beim Synchronisieren von Tabellen mit Snowflake Open Catalog werden die internen Schematabellen synchronisiert und nicht die im Datenaufgabenschema generierten Ansichten. Diese Einschränkung kann in Zukunft aufgehoben werden. Weitere Informationen über interne Schematabellen finden Sie unter Tabellen.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!