Vai al contenuto principale Passa a contenuto complementare

Architettura del set di dati in un cloud data warehouse

Qlik Talend Data Integration ti consente di creare, gestire e controllare una pipeline di dati analitici, fornendo i dati fino in fondo ai consumatori. Quando si generano dati nel cloud data warehouse con Qlik Talend Data Integration, vengono generate tabelle di archiviazione, tabelle di modifiche e visualizzazioni.

Un'interfaccia utente intuitiva e guidata ti aiuta a costruire, modellare ed eseguire pipeline di dati. Genera automaticamente schemi per archivi di dati operativi (ODS) e archivi di dati storici (HDS) senza codifica manuale.

Architettura per una Qlik Talend Data Integration pipeline di dati che utilizza Qlik Data Gateway - Spostamento datie CDC

  • Trasferimento

    L'attività di trasferimento in Qlik Talend Data Integration controllail trasferimento continuo dei dati dalle sorgenti dati alla zona di trasferimento. Qlik Data Gateway - Spostamento dati L'esempio nel diagramma descrive l'utilizzo di per accedere alle sorgenti dati utilizzando CDC per mantenere i dati aggiornati. È inoltre possibile Qlik Cloud utilizzare le connessioni sorgente per eseguire carichi completi che possono essere programmati per essere ricaricati periodicamente.

    Per informazioni su quando è necessario utilizzare il Gateway di Data Movement, vedere Quando è richiesto il Gateway di Data Movement?

    Nota informaticaLe tabelle nella zona di trasferimento vengono generate per uso interno dalle attività di archiviazione dati Qlik Talend Data Integration. Non utilizzare le tabelle di trasferimento in altri processi a valle.
  • Archiviazione

    L'attività di archiviazione controlla quando i dati vengono applicati alle tabelle di archiviazione e crea e gestisce le tabelle e le visualizzazioni esterne.

  • Visualizzazioni esterne

    Quando si consumano dati, la procedura consigliata consiste nell'utilizzare le visualizzazioni. Le visualizzazioni forniscono diversi vantaggi rispetto alle tabelle, tra cui una migliore concomitanza dei dati.

Uso delle visualizzazioni live

È possibile accedere sia ai dati correnti (ODS) che ai dati storici (HDS) utilizzando le visualizzazioni live. Includono i dati delle tabelle delle modifiche che non sono ancora stati applicati alle tabelle correnti o precedenti. Ciò consente all'utente di visualizzare dati con una latenza inferiore senza dover applicare i dati modificati frequentemente. La possibilità di ritardare l'unione consente di ridurre i costi e i requisiti di elaborazione nella piattaforma di destinazione.

Un altro vantaggio delle viste dal vivo è che il livello di calcolo non deve essere sempre eseguito.

  • Il trasferimento può indicare un warehouse esplicito che può essere piccolo, in quanto esegue le operazioni INSERT per un'esecuzione rapida.

  • Il processo di archiviazione, eseguito ad esempio una volta al giorno, può riattivare un livello di elaborazione di grandi dimensioni.

  • La latenza può essere migliorata, poiché non è più necessario applicare modifiche durante il giorno. Quando i nuovi record inseriti sono disponibili nella tabella delle modifiche, sono immediatamente disponibili nelle visualizzazioni live.

Schemi

Gli artefatti vengono generati in uno schema interno e in uno schema di attività dati.

  • Lo schema interno contiene le tabelle di dati fisici.

  • Lo schema dell'attività dati contiene le visualizzazioni che puoi utilizzare per utilizzare i dati.

    Quando uno schema viene associato a più di un'attività dati, ogni attività dati deve utilizzare un prefisso unico per le tabelle e le visualizzazioni. È possibile impostare il prefisso nelle impostazioni delle attività dati.

Vengono controllati solo gli schemi interni per verificare la presenza di conflitti di denominazione. Per gli altri schemi, è necessario assicurarsi che nei nomi della tabella non vi siano conflitti di denominazione. La procedura consigliata è denominare lo schema interno con lo stesso nome dello schema dell'attività dati con l'aggiunta del suffisso finale _interno. In questo modo, è possibile assicurarsi che ogni schema e combinazione di prefissi siano univoci.

Nota informaticaTutte le tabelle e le visualizzazioni sono gestite da Qlik Talend Data Integration. Non alterare i dati usando altri strumenti.

Tabelle

Le tabelle seguenti vengono create nello schema interno.

  • Tabella corrente (ODS)

    Questa tabella contiene la replica della sorgente dati aggiornata con le modifiche durante l'ultimo intervallo di applicazione.

  • Tabella precedente (HDS)

    Questa tabella contiene dati storici di tipo 2. Viene generato solo se la Cronologia è abilitata nelle impostazioni dell'attività dati.

    Quando un record della tabella sorgente viene aggiornato, ogni volta viene aggiunto un nuovo record alla tabella precedente. Il record della cronologia è una copia del record corrente precedente, che include anche ciò che è stato aggiornato e quando era valido.

    Utilizzare una visualizzazione cronologia o una visualizzazione live della cronologia per visualizzare i dati storici. Per ulteriori informazioni, vedi Visualizzazione cronologia e Visualizzazione in tempo reale della cronologia.

  • Tabella di modifiche

    Questa tabella contiene tutte le modifiche non ancora applicate alla tabella corrente. Viene generata solo se è utilizzata la modalità di trasferimento Pieno carico e CDC.

Visualizzazioni

Le visualizzazioni seguenti vengono create nello schema dell'attività dati di destinazione. La tipologia di visualizzazioni create dipende se si è abilitata la visualizzazione live e la cronologia e se si utilizza la gestione delle modifiche.

  • Visualizzazione corrente

  • Visualizzazione live

  • Modifiche visualizzazione

  • Visualizzazione cronologia

  • Visualizzazione live della cronologia

Visualizzazione corrente

Denominazione: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current

Le seguenti colonne di intestazione vengono aggiunte alla struttura della tabella.

Campi intestazione tabella
Campo Tipo Descrizione
hdr__key_hash varbinary(20)

Hash di tutte le chiavi primarie dei record. Il formato Hash è SHA1. Le colonne sono separate da un carattere backspace.

Questa colonna non viene generata nelle attività dati di Data mart .

hdr__key_id int64

Sequenza incrementata per record.

Questa colonna viene generata solamente nelle attività dati di Data mart.

hdr__from_timestamp timestamp

Timestamp in UTC

  • Per i dati ricavati dal carico completo, sarà l'ora di inizio del carico completo.

  • Per una modifica derivante dalle tabelle delle modifiche, sarà il campo data e ora del record.

hdr__operation string(1)

Ultimo funzionamento di questo record.

  • D - cancellato dalla tabella delle modifiche.

  • U - aggiornato dalla tabella delle modifiche.

  • I - inserito dalla tabella delle modifiche.

  • L - inserito dall'attività di caricamento completo.

  • d - cancellato da confronta e applica.

  • u - aggiornato da confronta e applica.

  • i -inserito da confronta e applica.

hdr__inserted_timestamp timestamp Data e ora UTC della prima volta in cui è stata aggiunta la chiave. Quando si usa il caricamento completo, l'ora d'inizio del caricamento completo.
hdr__modified_timestamp timestamp Data e ora UTC dell'ultimo aggiornamento applicato.

Visualizzazione live

Le viste live mostrano una visualizzazione per ciascuna tabella sorgente selezionata che fonde la tabella con le modifiche dalla tabella delle modifiche. Ciò fornisce alle query una visualizzazione live dei dati senza dover attendere il successivo ciclo di applicazione. Le modifiche unite dalla visualizzazione della tabella delle modifiche non sono coerenti con le transazioni tra le tabelle.

Le visualizzazioni dal vivo vengono create solo sono abilitate nelle impostazioni dell'attività dati.

Denominazione: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffisso per visualizzazioni live della cronologia>

Campi intestazione tabella
Campo Tipo Descrizione
hdr__key_hash varbinary(20)

Hash di tutte le chiavi primarie dei record. Il formato Hash è SHA1. Le colonne sono separate da un carattere backspace.

Questa colonna non viene generata nelle attività dati di Data mart .

hdr__key_id int64

Sequenza incrementata per record.

Questa colonna viene generata solamente nelle attività dati di Data mart.

hdr__from_timestamp timestamp

Timestamp in UTC

  • Per i dati ricavati dal carico completo, sarà l'ora di inizio del carico completo.

  • Per una modifica derivante dalle tabelle delle modifiche, sarà il campo data e ora del record.

hdr__operation string(1)

Ultimo funzionamento di questo record.

  • D - cancellato dalla tabella delle modifiche.

  • U - aggiornato dalla tabella delle modifiche.

  • I - inserito dalla tabella delle modifiche.

  • L - inserito dall'attività di caricamento completo.

  • d - cancellato da confronta e applica.

  • u - aggiornato da confronta e applica.

  • i -inserito da confronta e applica.

hdr__inserted_timestamp timestamp Data e ora UTC della prima volta in cui è stata aggiunta la chiave. Quando si usa il caricamento completo, l'ora d'inizio del caricamento completo.
hdr__modified_timestamp timestamp Data e ora UTC dell'ultimo aggiornamento applicato.
hdr__store varchar(10)

Questo indica dove risiede il record.

  • CORRENTE: se il record risiede nella tabella fisica corrente.

  • MODIFICHE: se il record risiede nella tabella delle modifiche.

Modifiche visualizzazione

Questa è una visualizzazione della tabella delle modifiche nello schema di trasferimento per ciascuna tabella sorgente selezionata.

Denominazione: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_cambia

I seguenti campi intestazione vengono aggiunti alla struttura della tabella.

Campi intestazione tabella modifiche
Campo Tipo Descrizione
hdr__change_identifier string(50)

L'identificatore di modifica è una stringa con due parti:

  • Data e ora di inizio esecuzione batch in secondi dal 01/01/1970 (stringa di 10 cifre)

  • Modifica sequenza dal gateway replication (35 caratteri)

hdr__from_timestamp timestamp

Timestamp in UTC

  • Per i dati ricavati dal carico completo, sarà l'ora di inizio del carico completo.

  • Per una modifica derivante dalle tabelle delle modifiche, sarà il campo data e ora del record.

hdr__to_timestamp timestamp

Timestamp in UTC

  • Per i dati ricavati dal carico completo, sarà l'ora di inizio del carico completo.

  • Per una modifica derivante dalle tabelle delle modifiche, sarà il campo data e ora del record.

hdr__operation string(1)

Ultimo funzionamento di questo record.

  • D - cancellato dalla tabella delle modifiche.

  • U - aggiornato dalla tabella delle modifiche.

  • I - inserito dalla tabella delle modifiche.

  • L - inserito dall'attività di caricamento completo.

  • d - cancellato da confronta e applica.

  • u - aggiornato da confronta e applica.

  • i -inserito da confronta e applica.

hdr__timestamp timestamp

Data e ora in UTC.

hdr__key_hash binary(20)

Hash di tutte le chiavi primarie dei record.

Questa colonna non viene generata nelle attività dati di Data mart.

hdr__key_id int64

Sequenza incrementata per record.

Questa colonna viene generata solamente nelle attività dati di Data mart.

Visualizzazione cronologia

Una visualizzazione cronologia viene generata nello schema asset di dati per ogni tabella di origine selezionata se Cronologia è abilitata nelle impostazioni dell'attività dati. I seguenti campi intestazione vengono aggiunti.

Denominazione: <SCHEMA_ESTERNO>.[<PREFIX>]<NOME_TABELLA>< Suffisso per visualizzazioni cronologia>

Campi di intestazione della visualizzazione cronologia
Campo Tipo Descrizione
hdr__key_hash binary(20)

Hash di tutte le chiavi primarie dei record.

Questa colonna non viene generata nelle attività dati di Data mart.

hdr__key_id int64

Sequenza incrementata per record.

Questa colonna viene generata solamente nelle attività dati di Data mart.

hdr__store varchar(10)

Questo indica dove risiede il record.

  • CORRENTE - se il record risiede nella tabella fisica corrente.

  • PRECEDENTI - se il record risiede nella tabella dei precedenti con i dati storici.

hdr__operation string(1)

Ultimo funzionamento di questo record.

  • D - cancellato dalla tabella delle modifiche.

  • U - aggiornato dalla tabella delle modifiche.

  • I - inserito dalla tabella delle modifiche.

  • L - inserito dall'attività di caricamento completo.

  • d - cancellato da confronta e applica.

  • u - aggiornato da confronta e applica.

  • i -inserito da confronta e applica.

hdr__deleted bit

Indica se il record è stato eliminato temporaneamente, a seconda che hdr__operation sia D o d.

hdr__was _current_from_timestamp timestamp

La data e ora in UTC per il primo record di tempo erano attuali.

hdr__was _current_to_timestamp timestamp

La data e ora in UTC per l'ultimo record di tempo erano attuali.

Visualizzazione in tempo reale della cronologia

Viene generata una visualizzazione in tempo reale della cronologia nello schema asset di dati per ciascuna tabella di origine selezionata unita alle modifiche dalla tabella delle modifiche. I seguenti campi intestazione vengono aggiunti.

Denominazione: <SCHEMA_ESTERNO>.[<PREFIX>]<NOME_TABELLA>< Suffisso per visualizzazioni in tempo reale della cronologia>

Campi di intestazione della vista cronologia
Campo Tipo Descrizione
hdr__key_hash binary(20)

Hash di tutte le chiavi primarie dei record.

Questa colonna non viene generata nelle attività dati di Data mart.

hdr__key_id int64

Sequenza incrementata per record.

Questa colonna viene generata solamente nelle attività dati di Data mart.

hdr__store varchar(10)

Questo indica dove risiede il record.

  • CORRENTE - se il record risiede nella tabella fisica corrente.

  • PRECEDENTI - se il record risiede nella tabella dei precedenti con i dati storici.

  • MODIFICHE - se il record risiede nella tabella delle modifiche.

hdr__operation string(1)

Ultimo funzionamento di questo record.

  • D - cancellato dalla tabella delle modifiche.

  • U - aggiornato dalla tabella delle modifiche.

  • I - inserito dalla tabella delle modifiche.

  • L - inserito dall'attività di caricamento completo.

  • d - cancellato da confronta e applica.

  • u - aggiornato da confronta e applica.

  • i -inserito da confronta e applica.

hdr__deleted bit

Indica se il record è stato eliminato temporaneamente, a seconda che hdr__operation sia D o d.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!