Impostazioni per le destinazioni di archiviazione cloud
È possibile modificare le impostazioni predefinite di trasferimento nel data lake in base alle proprie esigenze.
Generale
Metodo di aggiornamento
È possibile trasferire i dati in due modalità diverse. Non è possibile cambiare modalità una volta preparata l'attività di trasferimento nel data lake.
-
Funzione Change Data Capture (CDC) che utilizza tabelle di modifica: Le attività di trasferimento su data lake iniziano con un caricamento completo (durante il quale tutte le tabelle selezionate vengono caricate nella destinazione). I dati di destinazione vengono quindi mantenuti aggiornati usando la tecnologia CDC (Change Data Capture).
Nota informaticaL'acquisizione dati di modifica (CDC) per le operazioni DDL non è supportata.Quando si utilizza il Gateway Data Movement, le modifiche vengono acquisite dalla sorgente pressoché in tempo reale. Quando si lavora senza il Gateway Data MovementRDS Migration Tool, le modifiche vengono acquisite in base alle impostazioni dell'utilità di pianificazione. Per ulteriori informazioni, vedere Impostazioni per le destinazioni di archiviazione cloud.
-
Ricarica: esegue un caricamento completo dei dati dalle tabelle di origine selezionate sulla piattaforma di destinazione e, se necessario, crea le tabelle di destinazione. Il caricamento completo viene eseguito automaticamente all'avvio dell'attività, ma può anche essere eseguito o pianificato in modo che venga eseguito regolarmente, in base alle necessità.
Cartella da utilizzare
Selezionare una delle seguenti opzioni, a seconda della cartella del bucket in cui si desidera che vengano scritti i file:
- Cartella predefinita: il formato della cartella predefinita è <nome-progetto-utente>/<nome-attività-utente>
- Cartella radice: i file verranno scritti direttamente nel bucket.
-
Cartella: inserire il nome della cartella. La cartella verrà creata durante l'attività di trasferimento del data lake se non esiste.
Nota informatica Il nome della cartella non può includere caratteri speciali (ad esempio, @, #, !, e così via).
Partizionamento dei dati di modifica
In un'attività di trasferimento standard, le modifiche vengono trasferite alla destinazione senza un ordine particolare. Il partizionamento dei dati di modifica consente l'elaborazione dei dati di modifica da molte tabelle in modo coerente. È possibile definire la durata delle partizioni e il tempo base di partizionamento, garantendo così la coerenza complessiva dei dati partizionati (ad esempio, nessuna transazione parziale, nessuna intestazione di ordine senza righe di ordine e così via).
Le informazioni sulle partizioni vengono registrate nella tabella di controllo attrep_cdc_partitions nel database di destinazione. Queste informazioni possono essere utilizzate per identificare i dati partizionati che devono essere ulteriormente elaborati.
Le opzioni di partizionamento sono le seguenti:
-
Partiziona ogni - Specificare la lunghezza (in ore e minuti) di ciascuna partizione.
Nota informaticaSi consiglia di specificare una lunghezza della partizione superiore a un'ora. Sebbene specificare una lunghezza della partizione inferiore a un'ora possa migliorare la latenza, la creazione di molte partizioni sulla destinazione potrebbe anche influire sulle prestazioni (della destinazione) (specialmente in sistemi con grandi volumi di modifiche).
Se si riprende un'attività da PRIMA del momento in cui è stata creata l'ultima partizione, l'attività di trasferimento nel data lake scriverà in una partizione che è già stata chiusa.
- Tempo base di partizionamento - Le partizioni vengono create durante un periodo di 24 ore, calcolato in base al "Tempo base di partizionamento" specificato nel database di origine (in formato UTC). Ad esempio, un intervallo di partizione di 8 ore con un "Tempo base di partizionamento" alle 02:00 creerà le seguenti partizioni: 02:00-10:00, 10:00-18:00, 18:00-02:00 - ma non necessariamente in quest'ordine. Ad esempio, se un'attività è iniziata all'01:00, l'intervallo di tempo della prima partizione sarà 18:00-02:00. Inoltre, se un'attività è iniziata nel mezzo di una partizione (ad esempio alle 04:00), i suoi dati di modifica verranno inseriti nella partizione 02:00-10:00 (anche se non sono state acquisite modifiche prima delle 04:00).
Caricamento dei dati
Attributi del file
Formato
È possibile scegliere di creare i file di destinazione in formato CSV, JSON o Parquet.
In un file JSON, ogni record è rappresentato da una singola riga, come nel seguente esempio:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
Vedere anche: Proprietà content-type e content-encoding
- Se si sceglie il formato JSON o Parquet , i seguenti campi verranno nascosti in quanto rilevanti solo per il formato CSV: Delimitatore di campo, Delimitatore di record, Valore Null, Carattere virgolette, Carattere di escape virgolette e Aggiungi intestazione metadati.
- I seguenti campi sono rilevanti solo per il formato Parquet: Versione Parquet, Unità timestamp Parquet e Dimensione massima LOB Parquet (KB).
Per informazioni sulle mappature dei tipi di dati quando si utilizza il formato Parquet e sulle limitazioni, vedere Mapping from Qlik Cloud data types to Parquet
Delimitatore di campo
Il delimitatore che verrà utilizzato per separare i campi (colonne) nei file di destinazione. L'impostazione predefinita è una virgola.
Esempio di utilizzo di una virgola come delimitatore:
"mike","male"
I delimitatori possono essere caratteri standard o un valore esadecimale (hex). Si noti che il prefisso "0x" deve essere utilizzato per indicare un delimitatore esadecimale (ad esempio 0x01 = SOH). Nei campi Delimitatore di campo, Delimitatore di record e Valore Null, il delimitatore può essere costituito da valori esadecimali concatenati (ad esempio 0x0102 = SOHSTX), mentre nei campi Carattere virgolette e Carattere di escape virgolette, può essere solo un singolo valore esadecimale.
Il numero esadecimale 0x00 non è supportato (ovvero sono supportati solo 0x01-0xFF).
Valore Null
La stringa che verrà utilizzata per indicare un valore null nei file di destinazione.
Esempio (dove \n è il delimitatore di record e @ è il valore null):
Delimitatore di record
Il delimitatore che verrà utilizzato per separare i record (righe) nei file di destinazione. L'impostazione predefinita è una nuova riga (\n).
Esempio:
Carattere virgolette
Il carattere che verrà utilizzato all'inizio e alla fine di una colonna di testo. L'impostazione predefinita è il carattere delle virgolette doppie ("). Quando una colonna che contiene delimitatori di colonna è racchiusa tra virgolette doppie, i caratteri del delimitatore di colonna vengono interpretati come dati effettivi e non come delimitatori di colonna.
Esempio (dove @ è il carattere virgolette):
Carattere di escape virgolette
Il carattere utilizzato per eseguire l'escape di un carattere virgolette nei dati effettivi. L'impostazione predefinita è il carattere delle virgolette doppie (").
Esempio (dove " è il carattere virgolette e \ è il carattere di escape):
Versione Parquet
Selezionare la versione da utilizzare in base alla versione supportata dalla piattaforma di destinazione. Si noti che la versione Parquet 1.0 supporta solo l'unità timestamp MICRO , mentre la versione Parquet 2.6 supporta le unità timestamp sia MICRO che NANO .
Unità timestamp Parquet
Quando la versione Parquet è impostata su 2.6, scegliere MICRO o NANO. Quando la versione Parquet è impostata su 1.0, è supportato solo MICRO .
Dimensione massima LOB Parquet (KB)
La dimensione massima predefinita del LOB è 64 KB e il valore massimo che è possibile inserire in questo campo è 10.000 KB. La gestione delle colonne LOB richiede maggiori risorse, il che a sua volta influisce sulle prestazioni. Aumentare questo valore solo se si stanno replicando dati LOB di dimensioni superiori a 64 KB e si richiede che tutti i dati LOB vengano replicati nella destinazione.
Dimensione massima del file
La dimensione massima che un file può raggiungere prima di essere chiuso (e facoltativamente compresso).
Le dimensioni massime che può raggiungere un file prima che venga chiuso. I file di dimensioni inferiori possono essere caricati più velocemente (dipendendo dalla rete) e migliorare le prestazioni quando sono utilizzati insieme all'opzione di esecuzione parallela. Tuttavia, in generale si considera una cattiva prassi ingombrare il database con file di piccole dimensioni.
Comprimi i file utilizzando
Scegliere una delle opzioni di compressione per comprimere i file di destinazione o NONE (impostazione predefinita) per lasciarli non compressi. Si noti che le opzioni di compressione disponibili sono determinate dal formato file selezionato.
Aggiungi intestazione metadati
Facoltativamente, è possibile aggiungere una riga di intestazione ai file di dati. La riga di intestazione può contenere i nomi della colonna sorgente e/o i tipi di dati intermedi (ad es. Qlik Talend Data Integration).
Esempio di un file di destinazione con una riga di intestazione quando sono selezionate le opzioni Con nomi colonna e Con tipi di dati:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Elaborazione delle modifiche
Questa sezione descrive le impostazioni condizionali in Elaborazione delle modifiche.
Applica/archivia le modifiche quando
- La dimensione del file raggiunge: Specificare la dimensione massima dei dati di modifica da accumulare prima di caricare il file nella destinazione.
- Il tempo trascorso raggiunge: Il tempo trascorso raggiunge x.
File di metadati
Quando è selezionata l'opzione Crea file di metadati nella cartella di destinazione , per ogni file di dati verrà creato un file di metadati corrispondente con estensione .dfm nella cartella di destinazione specificata. I file di metadati forniscono informazioni aggiuntive sull'attività/sui dati, come il tipo di connettore di origine, il nome della tabella di origine, il numero di record nel file di dati e così via.
Per una descrizione completa del file di metadati e dei possibili utilizzi, vedere Descrizione dei file di metadati
Metadati
Colonne LOB
Includi colonne LOB e limita la dimensione della colonna a (KB)
È possibile scegliere di includere le colonne LOB nell'attività e impostare la dimensione massima del LOB. I LOB di dimensioni superiori a quella massima verranno troncati.
Mappatura delle colonne JSON
Mappare le colonne JSON compatibili dell'origine alle colonne JSON della destinazione.
-
If you are using Gateway Data Movement to access your data source, version 2024.11.70 or later is required.
-
Supported with a SaaS application Preview connectors only.
When this option is selected, JSON columns on the source will automatically be mapped to JSON columns on the target.
The state and visibility of this option is determined by the following factors:
-
New tasks: This option will be enabled by default if both the source and the target support the JSON data type.
-
Existing tasks: This option will be disabled by default, even if both the source and the target support the JSON data type. This is in order to preserve backward compatibility with downstream processes - such as transformations - that expect the target data to be in STRING format (which is the legacy behavior). È possibile lasciare l'opzione disattivata o modificare i processi a valle per renderli compatibili con il formato JSON e quindi attivare questa opzione.
-
New and existing tasks: If only the source supports the JSON data type, this option will not be visible. If JSON support is added to the target at a later stage, the option will become visible but remain disabled. This is in order to preserve backward compatibility with downstream processes - such as transformations - that expect the target data to be in STRING format (which is the legacy behavior).
Tabelle di controllo
Selezionare quali delle seguenti tabelle di controllo si desidera creare sulla piattaforma di destinazione:
- Stato della replica: Fornisce dettagli sull'attività di trasferimento corrente, tra cui lo stato dell'attività, la quantità di memoria consumata dall'attività, il numero di modifiche non ancora applicate alla piattaforma dati e la posizione nella sorgente dati da cui i dati vengono attualmente letti.
- Tabelle sospese: Fornisce un elenco delle tabelle sospese e il motivo per cui sono state sospese.
- Cronologia della replica: Fornisce informazioni sulla cronologia dell'attività, tra cui il numero e il volume di record elaborati durante un'attività di trasferimento, la latenza alla fine di un'attività CDC e altro ancora.
- Partizioni dei dati di modifica: Fornisce i record delle partizioni create nel database di destinazione a causa del Partizionamento dei dati di modifica. È possibile utilizzare queste informazioni per identificare i dati partizionati che devono essere ulteriormente elaborati.
Per una descrizione dettagliata di ciascuna delle tabelle di controllo, vedere Tabelle di controllo
Caricamento completo
, sia nella finestra di dialogo Crea connessione che nella guida online.Ottimizzazione delle prestazioni
- Numero massimo di tabelle da caricare in parallelo: Inserire il numero massimo di tabelle da caricare nella destinazione contemporaneamente. Il valore predefinito è 5.
-
Timeout di coerenza delle transazioni (secondi): Inserire il numero di secondi di attesa per la chiusura delle transazioni aperte, prima di iniziare l'operazione di caricamento completo. Il valore predefinito è 600 (10 minuti). Il caricamento completo inizierà dopo il raggiungimento del valore di timeout anche se ci sono transazioni ancora aperte.
Nota informaticaPer replicare le transazioni che erano aperte all'inizio del caricamento completo ma che sono state confermate solo dopo il raggiungimento del valore di timeout, è necessario ricaricare le tabelle di destinazione. - Frequenza di commit durante il caricamento completo: Il numero massimo di eventi che possono essere trasferiti insieme. Il valore predefinito è 10000.
Al termine del caricamento completo
Crea chiave primaria o univoca: Selezionare questa opzione se si desidera ritardare la creazione della chiave primaria o dell'indice univoco sulla piattaforma dati fino al termine del caricamento completo.
Per il caricamento iniziale
Quando si spostano i dati dalla sorgente di un'applicazione SaaS, è possibile impostare il modo in cui viene eseguito il caricamento completo:
| Usa dati in cache |
Quest'opzione consente di utilizzare i dati in cache letti quando si generano metadati con l'opzione Scansione dati completa selezionata. Ciò garantisce un minor tempo di overhead per quanto concerne le quote e l'utilizzo di API, visto che i dati vengono già letti dalla sorgente. Qualsiasi modifica successiva alla scansione dati iniziale può essere rilevata da Change Data Capture (CDC). |
| Carica da origine |
Quest'opzione esegue un nuovo caricamento dalla sorgente dati. Quest'opzione è utile se:
|
Elaborazione dell'archiviazione delle modifiche
Le colonne di intestazione della tabella delle modifiche forniscono informazioni sull'operazione di elaborazione delle modifiche, come il tipo di operazione (ad esempio, INSERT), il tempo di commit e così via. Se non si ha bisogno di queste informazioni, è possibile configurare l'attività dati per creare le tabelle delle modifiche senza alcune o tutte le colonne di intestazione, riducendo così il loro ingombro nel database di destinazione. Per fare ciò, deselezionare le caselle di controllo per le colonne di intestazione che si desidera escludere.
Si noti che non è possibile rimuovere colonne aggiuntive o ripristinare colonne mentre un'attività è in esecuzione. Per modificare la selezione iniziale, è necessario prima arrestare l'attività, quindi modificare la selezione e infine ricaricare le tabelle di destinazione.
Quando il Partizionamento dei dati di modifica è abilitato, una colonna di intestazione aggiuntiva denominata "partition_name" viene aggiunta alle tabelle delle modifiche e selezionata automaticamente nell'interfaccia utente. Poiché questa colonna è obbligatoria, non può essere esclusa.
Per una descrizione delle colonne di intestazione, vedere Utilizzo delle tabelle di modifica.
Gestione degli errori
Errori dei dati
La gestione degli errori dei dati è supportata solo con il metodo di aggiornamento Change Data Capture (CDC).
Errori di troncamento dei dati
Per errori di troncamento di dati: selezionare l'azione da eseguire quando si verifica un troncamento in uno o più record specifici. È possibile selezionare una delle seguenti opzioni dall'elenco:
- Ignora: l'attività continua e l'errore viene ignorato.
- Sospendi tabella: l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono replicati.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Altri errori dei dati
Per gli altri errori nei dati: selezionare l'azione da eseguire quando si verifica un errore in uno o più record specifici. È possibile selezionare una delle seguenti opzioni dall'elenco:
- Ignora: l'attività continua e l'errore viene ignorato.
- Sospendi tabella: l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono replicati.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Escalation della gestione degli errori dei dati
Riassegna gestione errore quando gli altri errori nei dati raggiungono (per tabella): selezionare questa casella di controllo per riassegnare la gestione dell'errore quando il numero di errori nei dati che non sono relativi al troncamento (per tabella) raggiunge la quantità specificata. I valori validi sono 1-10.000.
Azione di riassegnazione: scegliere l'azione da eseguire quando si riassegna la gestione dell'errore. Notare che le operazioni disponibili dipendono dall'azione selezionata dall'elenco a discesa Per gli altri errori nei dati descritto prima.
-
Sospendi tabella (opzione predefinita): l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono landed.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Errori della tabella
Numero di tentativi prima di restituire un errore di tabella
Questa opzione permette di controllare quando verranno attivati i criteri di gestione degli errori nella tabella. Per impostazione predefinita, dopo aver riscontrato un errore nella tabella, questa viene sospesa o l'attività viene interrotta (in base all'azione selezionata) dopo tre tentativi. A volte, si verifica un errore di tabella a causa della manutenzione programmata dell'applicazione SaaS. In questi casi, il numero predefinito di tentativi potrebbe non essere sufficiente per completare la manutenzione prima che vengano attivati i criteri di gestione degli errori nella tabella. Questo dipende anche dall'intervallo di pianificazione dell'attività, in quanto verrà eseguito un tentativo ogni volta che l'attività viene eseguita. Quindi, ad esempio, se si pianifica un'attività da eseguire ogni ora e l'applicazione SaaS viene messa offline per manutenzione proprio quando l'attività inizia a essere eseguita, il valore predefinito di tre tentativi consentirà all'applicazione SaaS di essere offline per un massimo di tre ore senza che vengano attivati i criteri di gestione degli errori nella tabella. Una finestra di manutenzione più lunga richiederebbe di aumentare il numero di tentativi (o di modificare la pianificazione) per evitare che vengano attivati i criteri di gestione degli errori della tabella.
Per riassumere, se sa che la sua applicazione SaaS è sottoposta a manutenzione periodica, la prassi migliore è aumentare il numero di tentativi in base alla pianificazione, in modo che la manutenzione possa essere completata senza che venga attivato il criterio di gestione degli errori nella tabella.
-
Questa opzione sarà visualizzata solo per le attività configurate con un connettore per applicazioni SaaS Lite o Standard.
-
Se si utilizza Gateway Data Movement, è richiesta la versione 2024.11.70 o successiva.
Quando rileva un errore tabella: selezionare una delle opzioni descritte di seguito dall'elenco a discesa:
- Sospendi tabella: (opzione predefinita) l'attività continua, ma i dati dalla tabella con il record dell'errore passano a uno stato di errore e i dati correlati non vengono replicati.
- Interrompi attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Riassegna gestione quando gli errori di tabelle raggiungono (per tabella): selezionare questa casella di controllo per riassegnare la gestione dell'errore quando il numero di errori della tabella (per tabella) raggiunge il numero specificato. I valori validi sono 1-10.000.
Azione di riassegnazione: i criteri di riassegnazione per gli errori nella tabella sono impostati su Interrompi attività e non è possibile modificarli.
Ambientali
-
Numero massimo di tentativi: selezionare questa opzione, quindi specificare il numero massimo di tentativi in cui cercare di eseguire l'attività quando si verifica un errore ambientale recuperabile. Una volta completato il numero di tentativi specificato per eseguire l'attività, questa viene interrotta ed è richiesto l'intervento manuale da parte dell'utente.
Per fare in modo che non venga eseguito nessun tentativo, deselezionare la casella di controllo o specificare "0".
Per impostare un numero infinito di tentativi, specificare "-1"
-
Intervallo tra nuovi tentativi (secondi): utilizzare il contatore per selezionare o digitare il numero di secondi che il sistema deve attendere tra un tentativo e l'altro quando tenta di eseguire un'attività.
I valori validi sono 0-2.000.
-
- Aumenta intervallo di tentativi per interruzioni prolungate: selezionare questa casella di controllo per aumentare l'intervallo tra i tentativi per le interruzioni prolungate. Quando questa opzione è abilitata, la durata dell'intervallo tra ciascun tentativo di esecuzione dell'attività raddoppia, fino al raggiungimento dell'Intervallo massimo di tentativi (i tentativi continuano a essere eseguiti in base all'intervallo massimo specificato).
- Intervallo massimo di tentativi (secondi): utilizzare il contatore per selezionare o digitare il numero di secondi da attendere tra un tentativo di eseguire un'attività quando l'opzione Aumenta intervallo di tentativi per interruzioni prolungate è selezionata. I valori validi sono 0-2.000.
Ottimizzazione dell'elaborazione delle modifiche
Ottimizzazione dell'offload transazionale
-
Esegui l'offload delle transazioni in corso su disco se:
I dati delle transazioni vengono solitamente conservati in memoria fino a quando non vengono completamente confermati nell'origine o nella destinazione. Tuttavia, le transazioni che superano la memoria allocata o che non vengono confermate entro il limite di tempo specificato verranno scaricate su disco.
- La dimensione totale della memoria per tutte le transazioni supera (MB): La dimensione massima che tutte le transazioni possono occupare in memoria prima di essere scaricate su disco. Il valore predefinito è 1024.
- La durata della transazione supera (secondi): Il tempo massimo in cui ogni transazione può rimanere in memoria prima di essere scaricata su disco. La durata viene calcolata dal momento in cui Qlik Talend Data Integration ha iniziato ad acquisire la transazione. Il valore predefinito è 60.
Ottimizzazione batch
-
Numero minimo di modifiche per transazione: il numero minimo di modifiche da includere in ogni transazione. Il valore predefinito è 1000.
Nota informaticaLe modifiche verranno applicate alla destinazione quando il numero di modifiche è uguale o maggiore del valore dell'opzione Numero minimo di modifiche per transazione O quando il valore Tempo massimo per raggruppare le transazioni in lotti prima dell'applicazione (secondi), a seconda di quale condizione si verifica per prima. Poiché la frequenza delle modifiche applicate nella destinazione è controllata da questi due parametri, le modifiche ai record di origine potrebbero non essere riflesse immediatamente nei record di destinazione.
- Tempo massimo per raggruppare le transazioni in lotti prima dell'applicazione (secondi): il tempo massimo per raccogliere le transazioni in batch prima che venga dichiarato un timeout. Il valore predefinito è 1.
Intervallo
Impostazioni per l'utilizzo dei connettori SAP ODP e applicazioni SaaS (Lite)
-
Leggi modifiche ogni (minuti)
Impostare l'intervallo tra le modifiche di lettura dalla sorgente in minuti. L'intervallo valido è compreso tra 1 e 1440.
Nota informaticaQuesta opzione è disponibile solo quando l'attività dati è definita con le seguenti opzioni:
- Gateway Data Movement
- Una qualsiasi delle seguenti fonti:
- Applicazione SaaS solo tramite connettori Lite
- SAP ODP
- Il metodo di aggiornamento Change Data Capture (CDC)
Le impostazioni quando si usa il connettore SAP OData
Verifica la presenza di modifiche
-
In base all'intervallo di estrazione delta: quando questa opzione è selezionata, l'attività dati verifica la presenza di modifiche in base all'intervallo di estrazione delta.
Nota informaticaL'intervallo inizierà dopo ogni "round". Un round può essere definito come il tempo necessario all'attività dati per leggere le modifiche dalle tabelle di origine e inviarle alla destinazione (come singola transazione). La durata di un round varia in base al numero di tabelle e modifiche. Quindi, se si specifica un intervallo di 10 minuti e un ciclo richiede 4 minuti, il tempo effettivo tra una verifica e l'altra delle modifiche sarà di 14 minuti.-
Intervallo estrazione Delta: la frequenza con cui i delta verranno estratti dal sistema. L'intervallo predefinito è 60 secondi.
-
-
Come pianificato: quando questa opzione è selezionata, l'attività dati estrarrà il delta una volta e poi si arresterà. Quindi, continuerà l'esecuzione in base alla pianificazione.
Nota informaticaQuesta opzione è rilevante solo se l'intervallo tra i cicli CDC è di 24 ore o più.Per informazioni sulla pianificazione:
-
Per le attività di "trasferimento dei dati in un data lake" in un progetto di replica, consultare Pianificazione CDC per le attività di trasferimento nel data lake
-
Ottimizzazione varia
- Dimensione della cache delle istruzioni (numero di istruzioni): Il numero massimo di istruzioni preparate da archiviare sul server per l'esecuzione successiva (quando si applicano le modifiche alla destinazione). L'impostazione predefinita è 50. Il massimo è 200.
-
DELETE e INSERT durante l'aggiornamento di una colonna chiave primaria: Questa opzione richiede che la registrazione supplementare completa sia attivata nel database di origine.
Nota informaticaQuesta impostazione non è disponibile quando si utilizza il connettore Anteprima di un'applicazione SaaS. I connettori di anteprima sono indicati da un pulsante, sia nella finestra di dialogo Crea connessione che nella guida online.
Evoluzione dello schema
Selezionare come gestire i seguenti tipi di modifiche DDL nello schema. Dopo aver modificato le impostazioni di evoluzione dello schema, è necessario preparare nuovamente l'attività. La tabella seguente descrive quali azioni sono disponibili per le modifiche DDL supportate.
| Modifica DDL | Applica alla destinazione | Ignora | Sospendi tabella | Arresta attività |
|---|---|---|---|---|
| Aggiungi colonna | Sì | Sì | Sì | Sì |
| Rinomina colonna | No | No | Sì | Sì |
| Rinomina tabella | No | No | Sì | Sì |
| Modifica tipo di dati colonna | No | Sì | Sì | Sì |
| Crea tabella
Se si è utilizzata una Regola di selezione per aggiungere set di dati che corrispondono a un modello, le nuove tabelle che soddisfano il modello verranno rilevate e aggiunte. |
Sì | Sì | No | No |
Sostituzione dei caratteri
È possibile sostituire o eliminare i caratteri nel database di destinazione e/o sostituire o eliminare i caratteri di origine che non sono supportati da un set di caratteri selezionato.
-
Tutti i caratteri devono essere specificati come punti di codice Unicode.
- La sostituzione dei caratteri verrà eseguita anche nelle Tabelle di controllo.
-
I valori non validi saranno indicati da un triangolo rosso nella parte superiore destra della cella della tabella. Se si posiziona il cursore del mouse sul triangolo, viene visualizzato il messaggio di errore.
-
Qualsiasi trasformazione globale o a livello tabella definita per l'attività verrà eseguita una volta completata la sostituzione del carattere.
-
Le azioni di sostituzione definite nella tabella Sostituisci o elimina caratteri di origine vengono eseguite prima dell'azione di sostituzione definita nella tabella Sostituisci o elimina caratteri di origine non supportati dal set di caratteri selezionato.
- La sostituzione dei caratteri non supporta i tipi di dati LOB.
Sostituzione o eliminazione dei caratteri di origine
Utilizzare la tabella Sostituisci o elimina caratteri di origine per definire le sostituzioni per caratteri di origine specifici. Questa opzione può essere utile, ad esempio, quando la rappresentazione Unicode di un carattere è differente nelle piattaforme di origine e di destinazione. Ad esempio, su Linux, il carattere meno nel set di caratteri Shift_JIS è rappresentato come U+2212, ma su Windows è rappresentato come U+FF0D.
| Per | eseguire questa azione |
|---|---|
|
definire le azioni di sostituzione. |
|
|
Modificare i caratteri di origine o di destinazione specificati |
Fare clic su |
|
Elimina voci dalla tabella |
Fare clic su |
Sostituzione o eliminazione dei caratteri di origine non supportati dal set di caratteri selezionato
Utilizzare la tabella Caratteri di origine non supportati dal set di caratteri per definire un singolo carattere di sostituzione per tutti i caratteri non supportati dal set di caratteri selezionato.
| Per | eseguire questa azione |
|---|---|
|
definire o modificare le azioni di sostituzione. |
|
|
Disabilitare l'azione di sostituzione. |
Selezionare la voce vuota dall'elenco a comparsa Set di caratteri. |
Caricamento di segmenti di set di dati in parallelo
Durante il caricamento completo, è possibile accelerare il caricamento di set di dati di grandi dimensioni suddividendo il set di dati in segmenti, che verranno caricati in parallelo. Le tabelle possono essere suddivise per intervalli di dati, tutte le partizioni, tutte le sottopartizioni o partizioni specifiche.
Per ulteriori informazioni, vedere Replica in parallelo di segmenti del set di dati.
Altre opzioni
Queste opzioni non sono esposte nell'interfaccia utente, dato che sono rilevanti solo per versioni o ambienti specifici. Di conseguenza, non impostare queste opzioni a meno che non sia stato esplicitamente indicato dal Supporto Qlik o dalla documentazione dei prodotti.
Per impostare un'opzione, semplicemente copiarla nel campo Aggiungi nome funzionalità e fare clic su Aggiungi. Quindi, impostare il valore o attivare l'opzione in base alle istruzioni ricevute.
Pianificazione CDC per le attività di trasferimento nel data lake
Nei seguenti casi d'uso, è necessario definire un intervallo di pianificazione per mantenere aggiornati i dati di destinazione:
- Accesso a una sorgente dati senza Gateway Data Movement
- Utilizzo di un connettore in anteprima per un'applicazione SaaS. Per scoprire se il connettore è in anteprima, consultare la guida del connettore.
- Quando si acquisiscono le modifiche da un'origine SAP OData utilizzando l'opzione Come pianificato.
La pianificazione determina la frequenza con cui i set di dati di destinazione verranno aggiornati con le modifiche ai set di dati di origine. Mentre la pianificazione determina la frequenza di aggiornamento, il tipo di set di dati determina il metodo di aggiornamento. Se i set di dati di origine supportano il CDC (Change data capture), solo le modifiche ai dati di origine verranno replicate e applicate alle tabelle di destinazione corrispondenti. Se i set di dati di origine non supportano il CDC (ad esempio, le viste), le modifiche verranno applicate ricaricando tutti i dati di origine nelle tabelle di destinazione corrispondenti. Se alcuni dei set di dati di origine supportano il CDC e altri no, verranno create due sottoattività separate (supponendo che il metodo di aggiornamento Change data capture (CDC) sia selezionate): una per ricaricare i set di dati che non supportano il CDC e l'altra per acquisire le modifiche ai set di dati che supportano il CDC. In questo caso, per garantire la coerenza dei dati, si consiglia vivamente di non mantenere lo stesso intervallo di pianificazione per entrambe le attività (se si decide di modificare la frequenza di aggiornamento in futuro).
Per modificare la pianificazione:
-
Aprire il progetto della pipeline e quindi eseguire una delle seguenti operazioni:
- Nella vista delle attività, fare clic su
su un'attività dati e selezionare Pianificazione.
- Nella vista della pipeline, fare clic su
su un'attività dati e selezionare Pianificazione.
- Aprire l'attività di replica e fare clic sul pulsante della barra degli strumenti Pianificazione .
- Nella vista delle attività, fare clic su
- Modificare le impostazioni di pianificazione in base alle esigenze e quindi fare clic su OK.
Esecuzione di un'esecuzione persa per un'attività basata su Gateway Data Movement
A volte un problema di rete può causare l'interruzione della connessione a Gateway Data Movement. Se la connessione a Gateway Data Movement non viene ripristinata prima dell'esecuzione programmata successiva, l'attività dati non potrà essere eseguita come previsto. In questi casi, è possibile scegliere se completare un'esecuzione immediatamente dopo il ripristino della connessione.
Le impostazioni predefinite per tutti i Gateway Data Movement sono definite nel centro attività Amministrazione. È possibile sovrascrivere queste impostazioni per le singole attività come descritto di seguito.
Per fare ciò
-
Aprire il progetto e quindi eseguire una delle seguenti operazioni:
-
Nella vista delle attività, fare clic su
sull'attività dati e selezionare Pianificazione.
-
Nella vista della pipeline, fare clic su
sull'attività dati e selezionare Pianificazione.
-
Aprire l'attività dati e fare clic sul pulsante della barra degli strumenti Pianificazione .
Si apre la finestra di dialogo Pianificazione - <attività>.
-
-
Attivare Usa impostazioni personalizzate per questa attività.
-
Nella parte inferiore della finestra di dialogo, scegliere una delle seguenti opzioni Esegui attività pianificate perse.
-
Il prima possibile e poi come pianificato se è importante eseguire un'attività prima dell'istanza pianificata successiva
-
Come pianificato per eseguire l'attività all'istanza pianificata successiva
-
-
Salvare le impostazioni.
Vedere anche: Esecuzione di un'attività dopo una pianificazione mancata.