Dati in streaming
Il processo di onboarding trasferisce i dati dalla sorgente e li archivia in tabelle Iceberg. Le modifiche provenienti dalle sorgenti dati in streaming vengono applicate continuamente alle tabelle di archiviazione quasi in tempo reale.
Inserisci dati
I dati vengono inseriti all'interno di un progetto pipeline e i set di dati vengono archiviati nella posizione S3 definita nelle impostazioni del progetto.
-
Nel progetto, fare clic su Crea e poi su Inserisci dati.
-
Aggiungi un Nome attività e una Descrizione facoltativa per l'onboarding.
Fare clic su Avanti.
-
Seleziona il collegamento sorgente.
È possibile selezionare una connessione di origine di flusso esistente o creare una nuova connessione alla sorgente.
Per ulteriori informazioni, vedere Connessione ai flussi di dati.
Fare clic su Avanti e segui le istruzioni riportate di seguito per la tua sorgente dati.
Selezione dei dati
Apache Kafka e Amazon Kinesis
L'elenco visualizza gli argomenti Kafka o i flussi Kinesis disponibili dall'host definito nella connessione di origine.
Quando selezioni i tuoi argomenti/flussi, puoi selezionare set di dati specifici o utilizzare regole di selezione per includere o escludere gruppi di set di dati:
-
Utilizzare % come carattere jolly per definire i criteri di selezione per i set di dati.
-
%.% definisce tutti i set di dati in tutti i flussi.
Se gli argomenti vengono selezionati utilizzando le regole di selezione, è possibile scegliere se caricare tutti i set di dati nella stessa tabella di destinazione o creare una tabella di destinazione separata per ogni argomento di origine:
-
Per impostazione predefinita, il nome della tabella Iceberg di destinazione deriva dal nome dell'argomento, formattato per essere conforme alle convenzioni di denominazione, ad esempio, minuscolo, spazi rimossi, trattini sostituiti con trattini bassi. In Definisci nome set di dati di destinazione, è possibile modificare il nome della tabella di destinazione
-
Quando vengono utilizzate le regole di selezione per caricare più argomenti in una singola tabella, è necessario fornire il nome di destinazione.
-
Quando vengono utilizzate le regole di selezione e i dati vengono caricati in tabelle separate (un set di dati per argomento), i nomi di destinazione predefiniti sono i nomi degli argomenti. In questa fase, non è possibile modificare i nomi nella procedura guidata, ma è possibile farlo in seguito nell'attività di trasferimento.
-
Se una regola è configurata per selezionare gli argomenti per l'ingestione, tutti i nuovi argomenti che soddisfano i criteri della regola vengono anche trasferiti se l'opzione Nuovo argomento > Aggiungi a destinazione in evoluzione dello schema nelle impostazioni dell'attività di trasferimento è selezionata.
Selezionare uno o più set di dati e fare clic su Aggiungi flussi selezionati. È possibile vedere i set di dati aggiunti in Flussi selezionati in modo esplicito. Fare clic su Avanti.
Amazon S3
Il browser delle directory visualizza un elenco di tutte le directory che si trovano nel bucket S3 della connessione di origine.
-
Selezionare le directory da includere durante il trasferimento dei dati:
-
Per ogni directory, in Aggiungi percorso, immettere il percorso e il modello di nome file:
-
Usa * come carattere jolly per abbinare qualsiasi carattere.
-
Per inserire un modello di data, usa <yyyy> come segnaposto per l'anno a quattro cifre, <MM> come segnaposto per il mese a due cifre, <dd> come segnaposto per il giorno a due cifre e <HH> come segnaposto per l'ora a due cifre. Ad esempio:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Fai clic su Anteprima per aprire la finestra di dialogo Anteprima dati. Viene visualizzato un elenco di file inclusi ed esclusi.
-
Fare clic su Convalida per controllare i dati.
-
In Definisci nome dataset di destinazione, fornire un nome per mappare l'argomento alla tabella Iceberg di destinazione. Fare clic su Avanti.
Selezione del tipo di contenuto
Scegliere il tipo di contenuto degli eventi della sorgente.
-
Selezionare il tipo di eventi che si stanno acquisendo in Scegliere il tipo di eventi dati.
-
Per ulteriori informazioni, vedere Connessione ai flussi di dati.
Il tipo di contenuto selezionato si applica a tutti gli argomenti. È necessario creare una nuova attività per ogni tipo di contenuto che si desidera acquisire.
-
Espandere Verificare che gli eventi siano stati caricati correttamente per confermare che i dati possono essere analizzati. È necessario assicurarsi che i dati siano corretti in questa fase, altrimenti è necessario ricreare la pipeline e caricare nuovamente i dati. Utilizzare Seleziona set di dati per esaminare set di dati specifici e controllare eventuali avvisi che potrebbero influire sul caricamento dei dati. Fare clic sull'icona a forma di occhio accanto a qualsiasi colonna struct per visualizzare i dati.
-
Fare clic su Avanti.
Impostazione delle proprietà di acquisizione
Configurare le impostazioni per la pipeline:
-
Leggi dati da
-
Inizia dall'evento più vecchio: importa tutti i dati storici.
-
Inizia da ora: importa i nuovi dati che arrivano dal momento in cui la pipeline si avvia.
-
-
Annullamento annidamento colonna
-
Mantieni le colonne nidificate: non vengono applicate trasformazioni.
-
Separa in colonne distinte: i dati vengono suddivisi in colonne separate.
-
-
Impostazioni di caricamento
-
Solo aggiunta: generalmente l'opzione migliore per i dati di evento, poiché di solito hanno una breve durata e non vengono aggiornati, ad esempio, Ordini.
-
Unione: questa opzione è più adatta ai dati che vengono aggiornati nel tempo, ad esempio, Clienti.
-
-
Partizione tabella di destinazione
L'opzione di partizione della tabella di destinazione si applica a tutte le tabelle nella pipeline. È possibile ignorare questa impostazione in seguito a livello di tabella per un partizionamento personalizzato.
-
Nessuna partizione: le tabelle vengono create senza alcuna partizione.
-
Partizione per data di ingestione evento: le tabelle vengono partizionate in base alla data in cui gli eventi vengono ingeriti.
-
-
Fare clic su Avanti.
Riepilogo
La schermata di riepilogo fornisce una visualizzazione della tua pipeline:
-
Facoltativamente, per l'attività Streaming trasferimento e Streaming Transform, puoi fare clic su Modifica nome e descrizione per fornire nuovi valori.
-
Seleziona l'opzione per ciò che desideri accada Dopo la creazione della pipeline.
-
Quando hai configurato tutte le impostazioni, fai clic su Crea per creare il progetto pipeline.
-
Quando il progetto viene visualizzato, puoi preparare ed eseguire ogni attività per iniziare a ingerire i dati.
-
Preparare ed eseguire l'attività di trasferimento in streaming.
Per ulteriori informazioni, vedere Trasferimento di dati in flusso a Qlik Open Lakehouse.
-
Preparare ed eseguire l'attività di trasformazione in streaming.
Per ulteriori informazioni, vedere Archiviazione di set di dati in flusso.
-