Impostazioni di trasferimento
È possibile configurare le impostazioni per l'attività dati di trasferimento.
-
Aprire l'attività di trasferimento e fare clic su Impostazioni nella barra degli strumenti.
Viene visualizzata la finestra di dialogo Impostazioni: <nome-attività>. Le impostazioni disponibili sono descritte di seguito.
Generale
-
Database
Database da utilizzare nella destinazione.
Nota informaticaQuesta opzione non è disponibile quando si trasferiscono dati a Qlik Cloud (tramite Amazon S3). -
Schema attività
È possibile modificare il nome dello schema dell'attività dati di trasferimento. Il nome predefinito è di trasferimento.
Nota informaticaQuesta opzione non è disponibile quando si trasferiscono dati a Qlik Cloud (tramite Amazon S3). -
Prefisso per tutte le tabelle e le visualizzazioni
È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.
Nota informaticaQuesta opzione non è disponibile quando si trasferiscono dati a Qlik Cloud (tramite Amazon S3).Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco. -
Metodo di aggiornamento
L'attività di trasferimento inizia sempre con un Caricamento completo. Una volta completato il Caricamento completo, è possibile mantenere aggiornati i dati trasferiti utilizzando uno dei metodi descritti di seguito:
Nota informaticaNon è possibile cambiare il metodo di aggiornamento una volta completata l'operazione di preparazione dell'attività di trasferimento dati.-
Change Data Capture (CDC)
I dati trasferiti vengono mantenuti aggiornati usando la tecnologia CDC (Change Data Capture). Non tutte le sorgenti dati potrebbero supportate CDC. CDC non acquisisce le operazioni DDL, quali la ridenominazione di colonne o le modifiche ai metadati.
Se i dati contengono anche visualizzazioni o tabelle che non supportano la funzione CDC, verranno create due pipeline di dati. Una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricaricamento e confronto come metodo di aggiornamento.
-
Ricarica e confronta
Tutti i dati trasferiti vengono ricaricati dalla sorgente. Ciò risulta utile se la sorgente dell'utente non supporta la CDC, ma è utilizzabile con qualsiasi sorgente dati supportata.
È possibile pianificare i ricaricamenti periodicamente.
-
-
Cartella da utilizzare nell'area di staging
Per le piattaforme dati che richiedono un'area di staging (ad esempio, Databricks e Azure Synapse Analytics), è possibile selezionare la cartella da utilizzare per il trasferimento dei dati.
-
Cartella predefinita
Viene creata una cartella con il nome predefinito: <nome progetto>/<nome attività di dati>.
-
Cartella radice
Archivia i dati nella cartella radice dell'archivio.
Nota informaticaQuesta opzione è disponibile solo quando si trasferiscono dati a Qlik Cloud (via Amazon S3). -
Cartella
Specifica un nome di cartella da utilizzare.
-
-
Cambia intervallo di elaborazione
È possibile impostare l'intervallo tra l'elaborazione delle modifiche dalla sorgente.
Nota informaticaQuesta opzione è disponibile solo quando si trasferiscono dati a Qlik Cloud (via Amazon S3). -
Server proxy in caso di utilizzo del gateway Data Movement
Nota informaticaQuesta opzione è disponibile solo quando si accede alle destinazioni tramite il gateway di Data Movement.Quando il gateway di Data Movement si connette al data warehouse cloud e all'area di archiviazione, è possibile scegliere di usare un server proxy.
Per maggiori informazioni sulla configurazione del gateway di Data Movement per fare in modo che utilizzi un server proxy, vedere Configurazione del tenant Qlik Cloud e di un server proxy.
-
Usa proxy per la connessione al data warehouse
Nota informaticaDisponibile per l'utilizzo di Snowflake, Google BigQuery e Databricks. -
Usa proxy per la connessione allo storage
Nota informaticaDisponibile per l'utilizzo di Azure Synapse Analytics, Amazon Redshift e Databricks.
-
Caricamento dati
-
Dimensioni massime file (MB)
Le dimensioni massime che può raggiungere un file prima che venga chiuso. I file di dimensioni inferiori possono essere caricati più velocemente (dipendendo dalla rete) e migliorare le prestazioni quando sono utilizzati insieme all'opzione di esecuzione parallela. Tuttavia, in generale si considera una cattiva prassi ingombrare il database con file di piccole dimensioni.
Nota informaticaQuesta impostazione è rilevante per tutte le piattaforme dati a eccezione di Qlik Cloud. -
Usa compressione
Quando questa impostazione è selezionata, i file CSV verranno compressi (utilizzando gzip) prima di essere caricati su Google BigQuery.
Nota informatica- Questa impostazione è rilevante solo per Google BigQuery.
- Richiede Gateway di Data Movement 2023.5.16 o versione successiva.
Metadati
Colonne LOB
-
Includi colonne LOB e limita dimensione della colonna a (KB):
è possibile scegliere di includere le colonne LOB nell'attività e di impostare le dimensioni massime LOB. Le LOB di dimensioni superiori rispetto alle dimensioni massime verranno troncate.
Nota informaticaQuando si utilizza Azure Synapse Analytics come destinazione, le dimensioni massime LOB non possono essere superiori a 7 MB.
Tabelle di controllo
Selezionare quale delle seguenti tabelle di controllo si desidera creare nella piattaforma di destinazione:
- Stato trasferimento: fornisce i dettagli sull'attività di trasferimento corrente, inclusi stato dell'attività, quantità di memoria consumata dall'attività, numero di modifiche non ancora applicate alla piattaforma dati e posizione nell'endpoint di origine da cui Gateway di Data Movement legge i dati.
- Tabelle sospese: fornisce un elenco delle tabelle sospese, insieme al motivo della sospensione.
- Cronologia trasferimento: fornisce informazioni sulla cronologia dell'attività, incluso il numero e il volume dei record elaborati durante un'attività di trasferimento, la latenza alla fine di un'attività CDC e altri dati.
-
Cronologia DDL: include una cronologia di tutte le modifiche DDL supportate apportate durante l'attività.
Nota informaticaLa tabella Cronologia DDL è supportata solo dalle seguenti piattaforme di destinazione:
-
Databricks
- Microsoft Fabric
-
Per una descrizione dettagliata di ogni tabella di controllo, vedere Tabelle di controllo
Caricamento completo
Regolazione prestazioni
- Numero massimo di tabelle da caricare in parallelo: inserire il numero massimo di tabelle da caricare alla volta nella destinazione. Il valore predefinito è 5.
-
Timeout coerenza transazione (secondi): inserire il numero di secondi da attendere per la chiusura delle transazioni aperte, prima di avviare l'operazione Caricamento completo. Il valore predefinito è 600 (10 minuti). Il caricamento completo verrà avviato una volta che viene raggiunto il valore di timeout, anche se vi sono transazioni ancora aperte.
Nota informaticaPer replicare le transazioni aperte all'avvio di Caricamento completo ma che sono state applicate solo dopo che è stato raggiunto il valore di timeout, è necessario ricaricare le tabelle di destinazione. - Frequenza di commit durante il caricamento completo: il numero massimo di eventi che è possibile trasferire insieme. Il valore predefinito è 10000.
Dopo il completamento del caricamento completo
Crea chiave primaria o univoca: selezionare questa opzione se si desidera ritardare la creazione della chiave primaria o univoca sulla piattaforma dati fino al completamento del caricamento completo.
Per il caricamento iniziale
Quando si spostano i dati dalla sorgente di un'applicazione SaaS, è possibile impostare il modo in cui viene eseguito il caricamento completo:
Usa dati in cache |
Quest'opzione consente di utilizzare i dati in cache letti quando si generano metadati con l'opzione Scansione dati completa selezionata. Ciò garantisce un minor tempo di overhead per quanto concerne le quote e l'utilizzo di API, visto che i dati vengono già letti dalla sorgente. Qualsiasi modifica successiva alla scansione dati iniziale può essere rilevata da Change Data Capture (CDC). |
Carica da origine |
Quest'opzione esegue un nuovo caricamento dalla sorgente dati. Quest'opzione è utile se:
|
Gestione errori
Errori dati
La gestione degli errori dati è supportata solo con il metodo di aggiornamento Change Data Capture (CDC).
Per errori di troncamento di dati: selezionare l'azione da eseguire quando si verifica un troncamento in uno o più record specifici. È possibile selezionare una delle seguenti opzioni dall'elenco:
- Ignora: l'attività continua e l'errore viene ignorato.
- Sospendi tabella: l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono replicati.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Per gli altri errori nei dati: selezionare l'azione da eseguire quando si verifica un errore in uno o più record specifici. È possibile selezionare una delle seguenti opzioni dall'elenco:
- Ignora: l'attività continua e l'errore viene ignorato.
- Sospendi tabella: l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono replicati.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Riassegna gestione errore quando gli altri errori nei dati raggiungono (per tabella): selezionare questa casella di controllo per riassegnare la gestione dell'errore quando il numero di errori nei dati che non sono relativi al troncamento (per tabella) raggiunge la quantità specificata. I valori validi sono 1-10.000.
Azione di riassegnazione: scegliere l'azione da eseguire quando si riassegna la gestione dell'errore. Notare che le operazioni disponibili dipendono dall'azione selezionata dall'elenco a discesa Per gli altri errori nei dati descritto prima.
-
Sospendi tabella (opzione predefinita): l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono landed.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Errori tabella
Quando viene rilevato un errore nella tabella: selezionare una delle opzioni descritte di seguito dall'elenco.
- Sospendi tabella (opzione predefinita): l'attività continua, ma i dati dalla tabella con il record dell'errore viene spostato in uno stato di errore e i relativi dati non vengono replicati.
- Arresta attività: l'attività viene interrotta ed è richiesto l'intervento manuale.
Riassegna gestione errore quando gli altri errori nella tabella raggiungono (per tabella): selezionare questa casella di controllo per riassegnare la gestione dell'errore quando il numero di errori nella tabella (per tabella) raggiunge la quantità specificata. I valori validi sono 1-10.000.
Azione di riassegnazione: La politica di riassegnazione per gli errori nella tabella è impostata su Interrompi attività e non è possibile modificarla.
Ambientale
-
Numero massimo di tentativi: selezionare questa opzione, quindi specificare il numero massimo di tentativi in cui cercare di eseguire l'attività quando si verifica un errore ambientale recuperabile. Una volta completato il numero di tentativi specificato per eseguire l'attività, questa viene interrotta ed è richiesto l'intervento manuale da parte dell'utente.
Per fare in modo che non venga eseguito nessun tentativo, deselezionare la casella di controllo o specificare "0".
Per impostare un numero infinito di tentativi, specificare "-1"
-
Intervallo tra nuovi tentativi (secondi): utilizzare il contatore per selezionare o digitare il numero di secondi che il sistema deve attendere tra un tentativo e l'altro quando tenta di eseguire un'attività.
I valori validi sono 0-2.000.
-
- Aumenta intervallo di tentativi per interruzioni prolungate: selezionare questa casella di controllo per aumentare l'intervallo tra i tentativi per le interruzioni prolungate. Quando questa opzione è abilitata, la durata dell'intervallo tra ciascun tentativo di esecuzione dell'attività raddoppia, fino al raggiungimento dell'Intervallo massimo di tentativi (i tentativi continuano a essere eseguiti in base all'intervallo massimo specificato).
- Intervallo massimo di tentativi (secondi): utilizzare il contatore per selezionare o digitare il numero di secondi da attendere tra un tentativo di eseguire un'attività quando l'opzione Aumenta intervallo di tentativi per interruzioni prolungate è selezionata. I valori validi sono 0-2.000.
Regolazione di elaborazione delle modifiche
Regolazione offload transazionale
-
Offload delle transazioni in corso su disco se:
i dati transazionali di norma vengono mantenuti in memoria fino a quando non vengono completamente implementati nella sorgente o destinazione. Tuttavia, per le transazioni con dimensioni più grandi rispetto alla memoria assegnata o che non vengono implementate entro il limite di tempo specificato, viene effettuato l'offload su disco.
- Le dimensioni totali della memoria per tutte le transazioni superano (MB): le dimensioni massime che tutte le transazioni possono occupare in memoria prima che venga effettuato l'offload su disco. Il valore predefinito è 1024.
- La durata della transazione supera (secondi): l'intervallo massimo di tempo che ogni transazione può rimanere in memoria prima che venga effettuato l'offload su disco. La durata viene calcolata dall'ora in cui Qlik Talend Data Integration ha iniziato l'acquisizione della transazione. Il valore predefinito è 60.
Regolazione batch
Alcune delle impostazioni in questa scheda
Queste impostazioni sono rilevanti per tutte le destinazioni a eccezione di Qlik Cloud:
- Applica modifiche in batch a intervalli:
-
Maggiore di: l'intervallo minimo di tempo durante il quale attendere tra ogni applicazione di modifiche in batch. Il valore predefinito è 1.
Se si aumenta il valore nell'opzione Maggiore di, diminuisce la frequenza con la quale le modifiche vengono applicate alla destinazione quando si aumentano le dimensioni dei batch. In questo modo, è possibile migliorare le prestazioni quando si applicano modifiche ai database di destinazione che sono ottimizzati per l'elaborazione di batch di grandi dimensioni.
- Inferiore a: l'intervallo massimo di tempo durante il quale attendere tra ogni applicazione di modifiche in batch (prima di dichiarare il timeout). Quindi, corrisponde alla latenza massima accettabile. Il valore predefinito è 30. Questo valore determina l'intervallo massimo di tempo da attendere prima di applicare le modifiche, dopo che è stato raggiunto il valore Superiore a.
-
Applicazione forzata batch quando la memoria di elaborazione supera i limiti (MB): la quantità massima di memoria da utilizzare per la pre-elaborazione. Il valore predefinito è 500 MB.
Per le dimensioni massime dei batch, impostare questo valore sulla quantità massima di memoria che è possibile assegnare per le attività dati. In questo modo, è possibile migliorare le prestazioni quando si applicano modifiche ai database di destinazione che sono ottimizzati per l'elaborazione di batch di grandi dimensioni.
-
Applica modifiche in lotti a più tabelle simultaneamente: la selezione di questa opzione dovrebbe migliorare le prestazioni quando si applicano le modifiche da più tabelle di origine.
-
Numero massimo di tabelle: il numero massimo di tabelle a cui applicare contemporaneamente le modifiche in batch . Il valore predefinito è cinque.
Nota informaticaQuesta opzione non è supportata quando si utilizza Google BigQuery come piattaforma dati. -
-
Limita il numero di modifiche applicate per ogni istruzione di elaborazione delle modifiche a: selezionare questa opzione per limitare il numero di modifiche applicate per ogni singola istruzione di elaborazione delle modifiche. Il valore predefinito è 10,000.
Nota informaticaQuesta opzione è supportata solo quando si utilizza Google BigQuery come piattaforma dati.
Queste impostazioni sono rilevanti solo per Qlik Cloud:
-
Numero minimo di modifiche per transazione: il numero minimo di modifiche da includere in ogni transazione. Il valore predefinito è 1000.
Nota informaticaLe modifiche verranno applicate alla destinazione quando il numero di modifiche è uguale o maggiore del valore dell'opzione Numero minimo di modifiche per transazione O quando il valore Tempo massimo per raggruppare le transazioni in lotti prima dell'applicazione (secondi), a seconda di quale condizione si verifica per prima. Poiché la frequenza delle modifiche applicate nella destinazione è controllata da questi due parametri, le modifiche ai record di origine potrebbero non essere riflesse immediatamente nei record di destinazione.
- Tempo massimo per raggruppare le transazioni in lotti prima dell'applicazione (secondi): il tempo massimo per raccogliere le transazioni in batch prima che venga dichiarato un timeout. Il valore predefinito è 1.
Intervallo
-
Leggi modifiche ogni (minuti)
Impostare l'intervallo tra le modifiche di lettura dalla sorgente in minuti. L'intervallo valido è compreso tra 1 e 1440.
Nota informaticaQuesta opzione è disponibile solo nei seguenti casi:
- Utilizzo di Gateway di Data Movement
- Trasferimento dati da sorgenti di applicazioni SaaS
- L'attività viene definita con il metodo di aggiornamento Change data capture (CDC)
Regolazioni varie
- Dimensioni della cache di istruzioni (numero di istruzioni): Il numero massimo di istruzioni preparate per l'archiviazione sul server per l'esecuzione successiva (quando si applicano modifiche alla destinazione). Il valore predefinito è 50. Il valore massimo è 200.
-
Usa DELETE e INSERT per l'aggiornamento di una colonna della chiave primaria: questa opzione richiede l'accesso supplementare completo per poter essere attivata nel database di origine.
Sostituzione di caratteri
È possibile sostituire o eliminare i caratteri nel database di destinazione e/o sostituire o eliminare i caratteri di origine che non sono supportati da un set di caratteri selezionato.
Tutti i caratteri devono essere specificati come punti di codice Unicode.
- La sostituzione dei caratteri verrà eseguita anche nelle Tabelle di controllo.
I valori non validi saranno indicati da un triangolo rosso nella parte superiore destra della cella della tabella. Se si posiziona il cursore del mouse sul triangolo, viene visualizzato il messaggio di errore.
Qualsiasi trasformazione globale o a livello tabella definita per l'attività verrà eseguita una volta completata la sostituzione del carattere.
Le azioni di sostituzione definite nella tabella Sostituisci o elimina caratteri di origine vengono eseguite prima dell'azione di sostituzione definita nella tabella Sostituisci o elimina caratteri di origine non supportati dal set di caratteri selezionato.
- La sostituzione dei caratteri non supporta i tipi di dati LOB.
Sostituzione o eliminazione dei caratteri di origine
Utilizzare la tabella Sostituisci o elimina caratteri di origine per definire le sostituzioni per caratteri di origine specifici. Questa opzione può essere utile, ad esempio, quando la rappresentazione Unicode di un carattere è differente nelle piattaforme di origine e di destinazione. Ad esempio, su Linux, il carattere meno nel set di caratteri Shift_JIS è rappresentato come U+2212, ma su Windows è rappresentato come U+FF0D.
Per | eseguire questa azione |
---|---|
definire le azioni di sostituzione. |
|
Modificare i caratteri di origine o di destinazione specificati | Fare clic su alla fine della riga e selezionare Modifica. |
Elimina voci dalla tabella | Fare clic su alla fine della riga e selezionare Modifica. |
Sostituzione o eliminazione dei caratteri di origine non supportati dal set di caratteri selezionato
Utilizzare la tabella Caratteri di origine non supportati dal set di caratteri per definire un singolo carattere di sostituzione per tutti i caratteri non supportati dal set di caratteri selezionato.
Per | eseguire questa azione |
---|---|
definire o modificare le azioni di sostituzione. |
|
Disabilitare l'azione di sostituzione. | Selezionare la voce vuota dall'elenco a comparsa Set di caratteri. |
Altre opzioni
Queste opzioni non sono esposte nell'interfaccia utente, dato che sono rilevanti solo per versioni o ambienti specifici. Di conseguenza, non impostare queste opzioni a meno che non sia stato esplicitamente indicato dal Supporto Qlik o dalla documentazione dei prodotti.
Per impostare un'opzione, semplicemente copiarla nel campo Aggiungi nome funzionalità e fare clic su Aggiungi. Quindi, impostare il valore o attivare l'opzione in base alle istruzioni ricevute.
Pianificazione di attività CDC quando non si utilizza il Gateway di Data Movement
Il Gateway di Data Movement non è supportato con una sottoscrizione Avvio Qlik Talend Cloud ed è facoltativo con altri livelli di sottoscrizione. Quando non si utilizza il Gateway di Data Movement, i dati di destinazione vengono mantenuti aggiornati impostando un intervallo di pianificazione. La pianificazione determina la frequenza con cui i set di dati di destinazione vengono aggiornati con le modifiche apportate ai set di dati di origine. Mentre la pianificazione determina la frequenza di aggiornamento, il tipo di set di dati determina il metodo di aggiornamento. Se i set di dati di origine supportano il CDC (Change data capture), solo le modifiche ai dati di origine verranno replicate e applicate alle tabelle di destinazione corrispondenti. Se i set di dati di origine non supportano il CDC (ad esempio, le viste), le modifiche verranno applicate ricaricando tutti i dati di origine nelle tabelle di destinazione corrispondenti. Se alcuni dei set di dati di origine supportano il CDC e altri no, verranno create due sottoattività separate: una per ricaricare i set di dati che non supportano il CDC e l'altra per acquisire le modifiche ai set di dati che supportano il CDC. In questo caso, per assicurare la coerenza dei dati, si consiglia vivamente di impostare la stessa pianificazione per entrambe le sottoattività.
Per informazioni sugli intervalli di pianificazione minimi in base al tipo di sorgente dati e i livelli di sottoscrizione, vedere Intervalli di pianificazione minimi consentiti.
Per modificare le pianificazioni:
Aprire il progetto dati, quindi eseguire una delle operazioni descritte di seguito.
- Nella vista Attività, fare clic su su un'attività dati e selezionare Pianificazione.
- Nella vista Pipeline, fare clic su su un'attività dati e selezionare Pianificazione.
- Aprire l'attività di trasferimento, quindi fare clic sul pulsante Pianificazione sulla barra degli strumenti.
- Modificare le impostazioni di pianificazione in base alle necessità, quindi fare clic su OK.