Registrazione di dati già presenti nella piattaforma dati
È possibile registrare i dati già esistenti sulla piattaforma dati per approfondirli, trasformarli e creare data mart. Ciò consente di utilizzare i dati che sono stati inseriti con strumenti diversi da Qlik Talend Data Integration, ad esempio, Qlik Replicate, o Stitch.
Quando si registrano i dati, vengono create due attività dati.
-
Dati registrati
La registrazione dei dati comporta la creazione di viste per preparare i dati alla creazione di set di dati.
-
Archiviazione
Ciò comporta la generazione e l'archiviazione di set di dati basati sui dati registrati.
Dopo aver registrato i dati, è possibile utilizzare i set di dati generati in diversi modi.
-
È possibile utilizzare i set di dati in un'app di analisi.
-
È possibile creare trasformazioni.
-
È possibile creare un data mart.
Registra dati
È possibile registrare i dati esistenti nel data warehouse cloud definito nel progetto. I set di dati generati saranno archiviati nello stesso data warehouse cloud.
Per ulteriori informazioni sui progetti, vedere Creazione di una pipeline di dati .
-
Fare clic su Crea, quindi fare clic su Registra dati in un progetto.
-
Aggiungere Nome e Descrizione per l'attività dati.
Fai clic su Avanti.
-
Selezionare i dati da registrare.
Selezione dei dati da includere
Fai clic su Avanti.
Verrà visualizzato Impostazioni.
-
Selezionare il modo in cui i dati vengono aggiornati in Metodo di aggiornamento.
Selezionare Incrementale con limite massimo se i dati sono replicati tramite Qlik Replicate o Stitch.
-
Selezionare Incrementale con limite massimo per elaborare le modifiche dei dati in modo incrementale utilizzando un motivo con limite massimo. Si consiglia questo metodo se i dati sono replicati tramite Qlik Replicate (con l'opzione Caricamento completo e archiviazione dei cambiamenti attiva) o Stitch.
Per ulteriori informazioni, vedere Metodo di aggiornamento.
-
Utilizzare Confronta con archiviazione corrente quando i dati sono stati caricati una sola volta o se vengono aggiornati con ricariche complete.
-
-
Visualizzare in anteprima le due attività dati create nel Riepilogo e rinominarle se desiderato.
Nota di suggerimentoI nomi vengono utilizzati durante la denominazione degli schemi di database nell'attività dei dati di archiviazione. Poiché uno schema può essere associato solo a un'attività, prendere in considerazione l'utilizzo di nomi univoci per evitare conflitti con attività dati in altri progetti che utilizzano la stessa piattaforma dati. -
Selezionare se si desidera aprire l'attività dati registrata o tornare al progetto.
Quando si è pronti, fare clic su Fine.
Le due attività dati vengono ora create. Per iniziare a replicare i dati è necessario:
-
Preparare l'attività dati registrata.
Fare clic su Prepara nell'attività dati.
Una volta creati gli artefatti, lo stato dell'attività dati è Registrato.
-
Preparare ed eseguire l'attività per i dati di archiviazione.
Per ulteriori informazioni, vedere Archiviazione di set di dati.
Selezione dei dati da includere
Quando si selezionano i dati da includere, è possibile selezionare tabelle o viste specifiche oppure utilizzare regole di selezione per includere o escludere gruppi di tabelle.
Utilizzare % come carattere jolly per definire un criterio di selezione per schemi e tabelle.
-
%.% definisce tutte le tabelle in tutti gli schemi.
-
Public.% definisce tutte le tabelle nello schema Pubblico.
I criteri di selezione offrono all'utente un'anteprima in base alle selezioni personali.
Ora è possibile:
-
Creare una regola per includere o escludere un gruppo di tabelle in base ai criteri di selezione.
Fare clic su Aggiungi regola dai criteri di selezioneper creare una regola e selezionare sia Includi sia Escludi.
È possibile vedere la regola in Regole di selezione.
-
Selezionare uno o più set di dati e fare clic su Aggiungi set di dati selezionati.
È possibile vedere i set di dati aggiunti in Set di dati selezionati in modo esplicito.
Le regole di selezione si applicano solo all'insieme corrente di tabelle e viste, non a tabelle e viste che verranno aggiunte in futuro.
Aggiornamento metadati
È possibile aggiornare i metadati nell'attività per allinearli con le modifiche nei metadati nella sorgente nella vista Progettazione dell'attività. Per le applicazioni SaaS che utilizzano Metadata Manager, quest'ultimo deve essere aggiornato prima di poter aggiornare i metadati nell'attività dati.
-
È possibile eseguire le seguenti azioni:
-
Fare clic su ..., quindi su Aggiorna metadati per aggiornare i metadati per tutti i set di dati nell'attività.
-
Fare clic su ... su un set di dati in Set di dati, quindi su Aggiorna metadati per aggiornare i metadati per un singolo set di dati.
È possibile visualizzare lo stato del processo di aggiornamento dei metadati in Aggiorna metadati nella parte inferiore dello schermo. È possibile visualizzare la data dell'ultimo aggiornamento dei metadati posizionando il cursore su .
-
-
Preparare l'attività dati per applicare le modifiche.
Una volta preparata l'attività dati e applicate le modifiche, queste vengono rimosse da Aggiorna metadati.
Devi preparare attività di archiviazione che utilizzano questa attività per propagare le modifiche.
Se una colonna viene rimossa, viene aggiunta una trasformazione con valori Null per assicurare che l'archiviazione non perda i dati cronologici.
Limitazioni per l'aggiornamento dei metadati
-
Se si esegue un'operazione di ridenominazione con una colonna rimossa anteriormente, nello stesso intervallo di tempo, questa verrà tradotta nella ridenominazione della colonna rimossa se hanno lo stesso tipo e la stessa lunghezza dati.
Esempio:
Prima: a b c d
Dopo: a c1 d
In questo esempio, b è stato rimosso e c è stato rinominato c1, mentre b e c hanno lo stesso tipo di dati e la stessa lunghezza dati.
L'operazione verrà identificata come ridenominazione di b in c1 e rimozione di c.
-
La ridenominazione dell'ultima colonna non viene riconosciuta, anche se questa è stata rimossa e quella prima di essa è stata rinominata.
Esempio:
Prima: a b c d
Dopo: a b c1
In questo esempio, d è stato rimosso e c è stato rinominato c1.
Questa operazione verrà identificata come rimozione di c e d e l'aggiunta di c1.
-
Le nuove colonne dovrebbero essere aggiunte alla fine. Se le colonne vengono aggiunte a metà con lo stesso tipo di dati della colonna successiva, possono essere interpretate come una rimozione e una ridenominazione.
Impostazioni dati registrati
È possibile impostare le proprietà per l'attività dati registrati.
-
Fare clic su Impostazioni.
Impostazioni generali
-
Database
Database da utilizzare nella destinazione.
-
Schema attività
È possibile modificare il nome dello schema dell'attività dati.
- Prefisso per tutte le tabelle e le visualizzazioni
È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.
Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco.
Metodo di aggiornamento
Rilevamento notifiche
-
Utilizzare Confronta con archiviazione corrente quando i dati sono stati caricati una sola volta o se vengono aggiornati con ricariche complete.
-
Utilizzare Incrementale con limite massimo per elaborare le modifiche dei dati in modo incrementale utilizzando un metodo con limite massimo.
Questa opzione richiede la definizione di una chiave primaria per tutte le tabelle. È possibile definire una chiave primaria manualmente nella vista Set di dati per le tabelle che non dispongono di una chiave primaria.
Impostazioni caricamento incrementale
Queste impostazioni sono disponibili quando è selezionata l'opzione Incrementale con limite massimo.
-
Se i dati sono replicati per un'attività di Qlik Replicate con modifiche di caricamento completo e archiviazione, impostare Impostazioni caricamento incrementale su impostazioni Qlik Replicate.
-
Se i dati vengono replicati da una pipeline dati di Stitch, e le tabelle di origine dispongono di una chiave primaria, impostare Impostazioni caricamento incrementale su Impostazioni predefinite di Stitch.
-
Altrimenti, impostare Impostazioni caricamento incrementale su Personalizzato e definire le impostazioni che si desiderano.
Impostazione | Personalizzato | Qlik Replicate Impostazioni | Impostazioni predefinite di Stitch |
---|---|---|---|
Tabelle di modifica |
Se le modifiche sono nella stessa tabella, selezionare Le modifiche sono nella stessa tabella. Altrimenti, deselezionare Le modifiche sono nella stessa tabella e specificare un modello per la tabella di modifica in Modello tabella di modifica. |
${SOURCE_TABLE_NAME}__ct table | Le modifiche sono nella stessa tabella |
Colonna limite massimo | Impostare il nome della colonna limite massimo in Nome. | header__change_seq | _SDC_BATCHED_AT |
Colonna "Data di inizio" |
È possibile indicare la "Data di inizio" per l'ora di inizio del lotto o utilizzando una colonna selezionata. Se si seleziona la Colonna "Data di inizio" selezionata, è necessario definire un modello "Data di inizio". |
header__timestamp | _SDC_BATCHED_AT
È possibile modificare l'opzione per indicare la "Data di inizio" in base all'ora di inizio del lotto o selezionando un'altra colonna. |
Eliminazioni temporanee |
Tra le modifiche è possibile includere le eliminazioni temporanee: per farlo, selezionare Le modifiche includono eliminazioni temporanee e definire un'espressione di indicazione. L'espressione di indicazione deve dare come risultato True se la modifica è un'eliminazione temporanea. Esempio: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Tra le modifiche è possibile includere le eliminazioni temporanee: per farlo, selezionare Le modifiche includono eliminazioni temporanee e definire un'espressione di indicazione. L'espressione di indicazione deve dare come risultato True se la modifica è un'eliminazione temporanea. Esempio: ${is_deleted} = 1 |
Prima dell'immagine |
È possibile filtrare i record prima dell'immagine nelle tabelle di modifica: per farlo, selezionare Prima dell'immagine e definire l'espressione di indicazione. Un'espressione di indicazione che dà come risultato True se la riga contiene l'immagine prima dell'aggiornamento. Esempio: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Non vi sono record di immagini precedenti nei dati. |
Impostazioni Catalogo
-
Pubblica nel catalogo
Selezionare questa opzione per pubblicare questa versione dei dati nel Catalogo come un set di dati. Il contenuto del Catalogo verrà aggiornato la volta successiva che si prepara l'attività.
Per ulteriori informazioni sul Catalogo, vedere Informazioni sui dati con gli strumenti del catalogo.
Configurazione consigliata di Qlik Replicate
Queste impostazioni dell'attività Qlik Replicate sono consigliate quando si registrano i dati replicati utilizzando un'attività Qlik Replicate che memorizza le modifiche.
-
L'attività Qlik Replicate deve essere configurata con le opzioni Caricamento completo e Memorizza modifiche.
-
In Archivia impostazioni modifiche > Tabelle modifiche, assicurarsi che le seguenti colonne delle tabelle modifiche siano incluse, utilizzando i rispettivi nomi predefiniti:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
In Archivia impostazioni modifiche > Tabelle modifiche, impostare All'UPDATE su Archivia solo dopo immagine.
In questo modo si riduce lo spazio per ogni aggiornamento, poiché l'immagine precedente non viene inclusa. Utilizzare questa opzione se non si intende utilizzare l'immagine precedente.
-
In Archivia impostazioni modifiche > Tabelle modifiche, impostare Suffisso al valore predefinito __ct.
-
Non applicare le seguenti trasformazioni globali:
-
Rinomina tabella modifiche
-
Rinomina schema tabella modifiche
-
-
Se è possibile aggiornare una chiave primaria in una tabella di origine, attivare l'opzione DELETE (elimina) e INSERT (inserisci) quando si aggiorna una colonna di chiave primaria in Regolazione dell'elaborazione delle modifiche.
La storia del vecchio record non sarà conservata nel nuovo record.
Nota informaticaQuesta opzione è supportata dal Qlik Replicate novembre 2022.
Operazioni sull'attività dati registrati
È possibile eseguire le seguenti operazioni su un'attività dati registrati dal menu attività.
-
Apri
Apre l'attività dati. È possibile visualizzare la struttura e i dettagli della tabella relativi all'attività dati.
-
Modifica
È possibile modificare il nome e la descrizione dell'attività e aggiungere tag.
-
Elimina
È possibile eliminare l'attività dati.
I dati di origine non vengono eliminati.
- Sincronizza set di dati
Questa funzione sincronizza le modifiche alla progettazione che non possono essere regolate automaticamente.
-
Ricrea tabelle
Questa funzione ricrea i set di dati dalla sorgente.
-
Archivia dati
È possibile creare un'attività dati di archiviazione che utilizzi i dati di questa attività dati di destinazione.
Considerazioni relative alla cronologia quando si imposta una colonna "Data di inizio"
Se i dati cronologici sono abilitati in un'attività a valle e di usa una colonna "Data di inizio", la retrodatazione non è supportata. Ciò significa che se un lotto di modifica contiene una versione anteriore di un record che non esiste nell'archiviazione, il lotto di modifica deve anche includere tutte le versioni successive del record. Se le versioni successive non sono incluse, verranno eliminate.
In questi esempi, l'archiviazione contiene questi record dall'inizio:
Data di inizio | Nome | Città |
---|---|---|
2/ott/2023 | Joe | New York |
3/ott/2023 | Joe | Londra |
Esempio 1:
Se si inserisce il seguente lotto di modifica:
Data di inizio | Nome | Città |
---|---|---|
4/ott/2023 | Joe | Parigi |
Il risultato nell'archiviazione è, come previsto:
Data di inizio | Nome | Città |
---|---|---|
2/ott/2023 | Joe | New York |
3/ott/2023 | Joe | Londra |
4/ott/2023 | Joe | Parigi |
Esempio 2:
Ma se si inserisce il seguente record anteriore in un lotto di modifica:
Data di inizio | Nome | Città |
---|---|---|
1/ott/2023 | Joe | Berlino |
Questi risultati nei record più recenti vengono rimossi dall'archiviazione:
Data di inizio | Nome | Città |
---|---|---|
1/ott/2023 | Joe | Berlino |
Esempio 3:
Per mantenere la cronologia, il lotto deve includere i record più recenti:
Data di inizio | Nome | Città |
---|---|---|
1/ott/2023 | Joe | Berlino |
2/ott/2023 | Joe | New York |
3/ott/2023 | Joe | Londra |
In questo modo, è possibile assicurare che la cronologia venga mantenuta anche nell'archiviazione:
Data di inizio | Nome | Città |
---|---|---|
1/ott/2023 | Joe | Berlino |
2/ott/2023 | Joe | New York |
3/ott/2023 | Joe | Londra |
Considerazioni
-
Non utilizzare l'opzione Cronologia nella replica di Stitch. Utilizzare le opzioni per mantenere i dati storici in Qlik Talend Data Integration.
Considerazioni sulle capacità di dati
-
Se una tabella registrata non dispone di chiave primaria, verrà eseguito un ricaricamento completo per ogni esecuzione. Questo verrà conteggiato nella quota di capacità di dati mensile registrata. Ciò si deve al fatto che l'archiviazione deve confrontare tutti i record per individuare le modifiche.
-
La capacità di dati per i dati registrati viene conteggiata nell'archiviazione. Questo significa che un'eliminazione nei dati registrati viene tradotta come un inserimento o un aggiornamento dell'archiviazione (eliminazione temporanea) e conteggiata nella capacità di dati.
-
Eliminazioni temporanee, inserimenti e aggiornamenti saranno conteggiati due volte all'interno per il calcolo della capacità di dati se una tabella dai dati registrati viene utilizzata in due attività dati di archiviazione.