Vai al contenuto principale Passa a contenuto complementare

Mirroring dei dati in un data warehouse cloud.

Le attività di mirroring consentono di eseguire query sui dati archiviati nel Qlik Open Lakehouse da Snowflake. I dati si riflettono in Snowflake senza bisogno di duplicarli. Le tabelle con mirroring assicurano costi di archiviazione e di progettazione minimi e consentono di mantenere un'unica fonte sullo stato dei dati.

Dopo aver effettuato l'onboarding dei dati in un Qlik Open Lakehouse, è possibile eseguire il mirroring dei dati in Snowflake utilizzando le tabelle speculari. È possibile eseguire query sui dati in Iceberg utilizzando un motore di query che supporta nativamente Iceberg, come Amazon Athena. Tuttavia, le tabelle speculari sono ideali quando si vuole implementare l'architettura aperta di Iceberg ma continuare a utilizzare Snowflake come motore per le query. L'attività dati di mirroring automatizza il processo per rendere accessibili le tabelle Iceberg in Snowflake, considerandole come tabelle esterne. Snowflake considera le tabelle Iceberg come a delle tabelle esterne, perché non le gestisce, ma ne legge solo i dati. Le tabelle esterne permettono di eseguire query sui dati di Iceberg in Snowflake senza migrarli o gestire le tabelle in Snowflake.

Per eseguire il mirroring dei dati, creare un volume esterno in Snowflake che punta al bucket S3 in cui si trovano le tabelle Iceberg, aggiornate dall'attività di archiviazione. Quindi, creare un'integrazione per il catalogo Snowflake che punta al catalogo dati utilizzato dal progetto del Qlik Open Lakehouse, ad esempio AWS Glue Data Catalog.

L'attività di mirroring esegue le dichiarazioni DDL necessarie per creare le tabelle esterne in Snowflake. La tabella (schema) viene visualizzata in Snowflake, insieme alle tabelle delle modifiche e della cronologia, ma se si esamina la definizione della tabella, viene visualizzata come una vista creata in cima alla tabella esterna. Gli utenti di Snowflake possono interrogare le viste come se i dati fossero archiviati nell'ambiente Snowflake. I dati con mirroring offrono prestazioni elevate, in quanto Qlik continua a gestire e ottimizzare i dati.

Meccanismo di aggiornamento

Snowflake punta ai metadati che riflettono l'ultimo snapshot dei dati disponibili all'interno di Iceberg. Sono disponibili due modi per aggiornare i metadati:

  1. Gestito da Qlik: questa opzione richiede un warehouse Snowflake attivo e include il monitoraggio e l'anteprima dei dati. Selezionare questa opzione quando si desidera creare trasformazioni a valle e monitorare e programmare le attività. Qlik è responsabile dell'operazione di aggiornamento dei metadati, quindi è possibile configurarla manualmente, ad esempio per eseguirla ogni 30 minuti. Questa opzione è particolarmente importante per le trasformazioni di più tabelle, in quanto i metadati di tutte le tabelle si aggiornano simultaneamente. Sebbene si possa perdere parte del guadagno in tempo reale offerto dall'aggiornamento gestito da Snowflake, questa opzione consente di mantenere la coerenza tra le tabelle. Per le trasformazioni di più tabelle, è possibile attivare l'aggiornamento tutte le volte che è necessario. Qlik raccomanda di impostare l'attivazione basata sugli eventi per le attività di trasformazione a valle che seguono attività di mirroring programmate.

  2. Gestito da Snowflake: un'operazione senza server che sfrutta l'infrastruttura di Snowpipe senza richiedere o attivare un warehouse di calcolo. Questa opzione è consigliata quando non è necessario eseguire trasformazioni a valle. L'intervallo di aggiornamento viene configurato quando si crea l'integrazione del catalogo Snowflake. Per monitorare lo stato dell'aggiornamento automatico, eseguire la query SYSTEM$AUTO_REFRESH_STATUS in Snowflake. Qlik perde la proprietà del processo e non è in grado di monitorare le attività di questo tipo.

Ogni attività di mirroring all'interno di un progetto può essere configurata con un meccanismo di aggiornamento proprio: se si creano due attività di mirroring, una può utilizzare l'aggiornamento gestito da Qlik, mentre l'altra può utilizzare l'aggiornamento gestito da Snowflake.

Evoluzione dello schema

Se si aggiungono o rimuovono manualmente colonne o tabelle dall'attività di archiviazione, o indirettamente dall'attività di trasferimento, le modifiche si riflettono automaticamente nella struttura dell'attività di mirroring. Per applicare le modifiche alle tabelle con mirroring, è necessario preparare l'attività. Se l'evoluzione dello schema è abilitata nelle impostazioni delle attività di mirroring e archiviazione, qualsiasi modifica dello schema rilevata automaticamente nell'attività di archiviazione viene applicata alle tabelle con mirroring.

Prerequisiti

Un'attività dati di mirroring può essere aggiunta solo dopo che è stata creata un'attività di archiviazione in un progetto Qlik Open Lakehouse. Un'attività di archiviazione può avere più attività dati di mirroring. Un'attività dati di mirroring può essere associata a una sola attività di archiviazione.

Per eseguire il mirroring dei dati su Snowflake, sono necessari i seguenti elementi:

  • Una connessione al database Snowflake in cui si desidera eseguire il mirroring dei dati. Opzionalmente, è possibile creare una nuova connessione durante la creazione dell'attività di mirroring. I requisiti sono disponibili nelle istruzioni per la connessione a Snowflake.

  • Un volume esterno Snowflake. Questo garantisce a Snowflake un accesso limitato alla posizione S3 dell'utente. Per configurare il volume, vedere Configurare un volume esterno per Amazon S3.

  • Un'integrazione del catalogo dati AWS Glue. Questa consente a Snowflake di collegarsi ai dati nel formato di tabella aperto Iceberg nel proprio archivio di oggetti. Per configurare un'integrazione del catalogo, vedere Configurare un'integrazione del catalogo per AWS Glue.

Creazione di un'attività dati di mirroring

Per eseguire il mirroring dei dati su Snowflake, fare quanto segue:

  1. Aprire il progetto che contiene l'attività di archiviazione per i dati per cui si desidera eseguire il mirroring.

  2. Fare clic su Altre azioni sull'attività di archiviazione. Selezionare i Mirroring dei dati, quindi configurare le seguenti opzioni:

    • Nome: inserire un nome per l'attività di mirroring.

    • Descrizione: opzionalmente, descrivere lo scopo dell'attività.

    • Connessione

      • per utilizzare una connessione esistente, fare clic su Seleziona per aprire la finestra di dialogo Connessione di origine sicura. Selezionare lo Spazio in cui si trova la connessione, quindi selezionare la connessione. Fare clic su Modifica per modificare le proprietà della connessione.

      • Per creare una nuova connessione, fare clic su Crea connessione per aprire la finestra di dialogo Crea connessione, quindi seguire le istruzioni.

    • Database: inserire il nome del database in cui si desidera eseguire il mirroring dei dati.

    • Volume esterno Snowflake: inserire il nome del volume esterno creato in Snowflake.

    • Integrazione di catalogo Snowflake: inserire il nome dell'integrazione del catalogo creata in Snowflake.

  3. Selezionare il modo in cui si desidera che i dati vengano aggiornati in Snowflake:

    • Gestito da Qlik: selezionare questa opzione se si desidera creare trasformazioni a valle. Questa opzione richiede un warehouse Snowflake attivo ed è monitorata da Qlik.

    • Gestito da Snowflake: selezionare questa opzione se non si desidera eseguire trasformazioni a valle. Non è richiesto un warehouse Snowflake e quindi non è monitorato da Qlik. Questo viene amministrato e monitorato in Snowflake.

  4. Creare l'attività di mirroring per aggiungerla all'attività di archiviazione nella pipeline.

  5. Fare clic su Altre azioni sull'attività di mirroring e selezionare Apri. Assicurarsi di visualizzare la vista Progettazione.

  6. Per selezionare un sottoinsieme dei set di dati disponibili, fare clic su Seleziona dati di origine e rimuovere i set di dati indesiderati.

  7. Fare clic su Prepara per creare la tabella esterna in Snowflake ed eseguire il mirroring dei dati.

Eseguire trasformazioni

Se è necessario trasformare i dati, è possibile creare un progetto Snowflake e utilizzare come sorgente un'attività di mirroring all'interno del progetto del Qlik Open Lakehouse. Per creare un'attività di trasformazione utilizzando i dati di un progetto esistente, consultare la sezione Creazione di pipeline tra progetti.

Eliminazione di un'attività dati di mirroring

Quando si elimina un'attività di mirroring, le tabelle e le viste esterne vengono eliminate da Snowflake e non sono più disponibili per l'esecuzione di query. Un'attività di archiviazione non può essere eliminata se è presente un'attività di mirroring che ne legge i dati.

Per eliminare un'attività dati di mirroring, fare quanto segue:

  1. Nell'attività dati di mirroring che si desidera eliminare, fare clic sul menu Altre azioni dell'attività e selezionare Elimina.

  2. Nella finestra di dialogo di conferma, fare clic su Elimina.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!