Tutorial - Flusso di dati per principianti
Questo tutorial introdurrà un caso d'uso di base per la preparazione dei dati, che consente di acquisire maggiore familiarità con i diversi passaggi richiesti per la generazione di un flusso di dati, oltre alle diverse possibilità offerte. Con il pacchetto allegato contenente un paio di set di dati, sarà possibile riprodurre tutti i passaggi di questo tutorial.
Questo scenario si concentrerà su un campione di dati di vendita con i clienti di ogni parte del mondo e informazioni sui loro nomi, data e stato degli ordini, Paese di origine, stato, indirizzo, numero di telefono, ecc. Supponiamo che si desideri preparare i dati in modo che si concentrino sui clienti degli Stati Uniti. È necessario isolare tutti i dati sui clienti statunitensi, aggiungere le informazioni mancanti sui Paesi di origine, apportare una piccola modifica alla formattazione ed esportare i dati in un nuovo file che sarà possibile utilizzare come sorgente dell'app di analisi, ad esempio.
Prerequisiti
Scaricare questo pacchetto e decomprimerlo sul desktop:
Tutorial per principianti su Flusso di dati
Il pacchetto contiene i seguenti file di dati necessari per completare il tutorial:
-
sales_data_sample.xlsx
-
states.xlsx
Aggiunta dei file di origine al catalogo
Prima di iniziare a creare il flusso di dati, i due file del pacchetto devono essere disponibili nella piattaforma di analisi. Per aggiungere i dati di origine al catalogo:
-
Dal menu Launcher, selezionare Analisi > Catalogo.
-
Fare clic sul pulsante Crea nuovo in alto a destra e selezionare Set di dati.
-
Nella finestra che viene visualizzata fare clic su Carica file di dati.
-
Trascinare i file del tutorial dal desktop e rilasciarli nell'area dedicata della finestra Aggiungi file, oppure fare clic su Sfoglia per selezionarli dalla relativa posizione.
-
Fare clic su Carica.
Creazione di un flusso di dati e aggiunta di una sorgente
Ora che i dati necessari sono stati impostati, è possibile iniziare a creare il flusso di dati, partendo dalla sorgente.
-
Dal menu Launcher, selezionare Analisi > Prepara dati.
-
Fare clic sul riquadro Flusso di dati o fare clic su Crea nuovo > Flusso di dati.
-
Nella finestra Crea un nuovo flusso di dati, impostare le informazioni del flusso di dati come segue e fare clic su Crea:
-
Tutorial flusso di dati come Nome.
-
Personale come Spazio.
-
Flusso di dati per la preparazione dei dati di vendita incentrati sui clienti statunitensi come Descrizione.
-
Tutorial come Tag.
Viene visualizzato il flusso di dati vuoto.
-
-
Fare clic su Sfoglia catalogo sulla tela vuota per iniziare a esaminare i set di dati che sono stati aggiunti al catalogo.
-
Utilizzare la ricerca con filtri per trovare i set di dati sales_data_sample.xlsx e states.xlsx precedentemente caricati e selezionare le caselle di controllo prima dei nomi.
-
Fare clic su Avanti.
-
Esaminare i set di dati e i relativi campi nel riepilogo, quindi fare clic su Carica nel flusso di dati.
Entrambi i set di dati di origine vengono aggiunti alla tela ed è possibile iniziare a preparare i dati utilizzando i processori. sales_data_sample.xlsx è il set di dati principale che si utilizzerà, mentre states.xlsx verrà utilizzato per i dati aggiuntivi.
Filtraggio dei dati in base ai clienti statunitensi
Ora è possibile iniziare a preparare i dati con modifiche successive tramite l'uso di processori. Il primo passaggio consiste nel ridurre l'ambito del set di dati in modo che si concentri solo sui clienti con sede negli Stati Uniti. Per farlo, utilizzi il processore Filtro per selezionare solo le righe con il valore USA nel campo PAESE.
-
Fare clic sul menu di azione (
) della sorgente sales_data_sample sulla tela.
-
Dal menu che si apre, selezionare Aggiungi processore > Filtro.
Il processore Filtro viene posizionato sulla tela, già connesso al nodo di origine.
Nota informaticaÈ anche possibile trascinare manualmente i processori dal pannello sinistro Processori e connettere i nodi manualmente. -
Se non è già aperto, fare clic su Proprietà in alto a destra della tela per aprire il pannello delle proprietà del processore, dove è possibile configurare i processori e visualizzare l'anteprima dei dati e lo script.
-
Nel pannello delle proprietà, fare clic sull'icona Modifica (
) accanto al nome del processore per dargli un nome più significativo, come Filtro USA, e una breve descrizione, come per esempio Filtra per clienti USA.
-
Dall'elenco a discesa Campo da elaborare, selezioni PAESE.
-
Dall'elenco a discesa Operatore, selezionare =.
-
Nel campo Usa con, selezionare Valore e inserire USA.
-
Dall'elenco Seleziona righe che corrispondono, selezionare Tutti i filtri.
Questi parametri sono più utili quando si combina più di un filtro.
-
Fare clic su Applica.
La configurazione del processore è valida, ma viene visualizzato il messaggio Non collegato perché il processore non ha ancora un flusso di output.
-
Fare clic su Anteprima dati nel pannello inferiore.
Se si esamina l'anteprima, si può notare che solo le righe con USA come Paese sono state mantenute in questa fase e saranno propagate nel flusso di output. Il flusso di dati ora dovrebbe apparire come segue:
Aggiunta dei nomi di stati da un altro set di dati
Nel caso dei restanti clienti con sede negli Stati Uniti, il campo STATO contiene il Paese di origine, ma come codice di due lettere. Si desidera rendere queste informazioni più facili da leggere, indicando idealmente il nome completo dello stato.
Il set di dati states.xlsx importato in precedenza come sorgente contiene un riferimento a tutti gli stati USA con i codici di due lettere, oltre ai nomi completi corrispondenti. Si esegue un'operazione di unione tra questi due set di dati per recuperare i nomi degli Stati e integrare il flusso principale.
Per eseguire l'unione:
-
Fare clic sul menu di azione (
) del processore Filtro e selezionare Aggiungi processore al ramo corrispondente > Unisci.
-
Rinominare il processore come Nomi di stato completi usando l'icona Modifica (
) nel pannello delle proprietà.
-
Collegare la sorgente di stati al punto di ancoraggio inferiore del processore Unione. Per creare un collegamento, fare clic sul punto a destra del nodo di origine, quindi tenere premuto e trascinare il collegamento sul punto inferiore a sinistra del nodo del processore.
-
Nell'elenco a discesa del Tipo di unione, selezionare Unione esterna a sinistra.
-
Nell'elenco a discesa della Chiave sinistra, selezionare il campo STATO.
-
Nell'elenco a discesa Chiave destra, selezionare il campo Abbreviazione.
Le due colonne selezionate contengono le informazioni comuni e consentono un collegamento tra i due flussi di input. Con un'unione esterna a sinistra, solo i campi aggiuntivi del secondo set di dati vengono aggiunti al flusso principale.
-
Fare clic su Applica.
Viene aggiunto un nuovo campo Stato alla fine del set di dati, con il nome completo dello stato per ogni cliente.
Ridenominazione e spostamento dei campi
Ora sono presenti diversi problemi con la denominazione e la formattazione delle colonne. STATO e Stato sono troppo simili e confusi, e i due campi sono troppo distanti. Per migliorare la coerenza e l'uniformità dei campi, è possibile utilizzare il processore Seleziona campi per rinominare e spostare i campi.
-
Fare clic sul menu di azione (
) del processore Unisci e selezionare Aggiungi processore > Seleziona campi.
-
Collegare il processore Unisci al processore Seleziona campi.
-
Rinominare il processore come Rinomina campi stati usando l'icona Modifica (
) nel pannello delle proprietà.
-
Posizionare il mouse sui campi da rinominare e fare clic sull'icona
Modifica per modificare i nomi dei due campi come segue:
-
STATO come STATECODE
-
STATO come STATENAME
-
-
Utilizzare l'icona = per trascinare la nuova colonna STATENAME accanto a STATECODE.
-
Fare clic su Applica.
I campi sono stati riorganizzati e il flusso di dati è simile al seguente:
Inserimento dei nomi dei clienti in maiuscolo
Per evidenziare i cognomi dei clienti e rendere più facile distinguerli dai nomi, si utilizzerà una semplice funzione di formattazione del processore Stringhe per mettere i cognomi in maiuscolo.
-
Fare clic sul menu di azione (
) del processore Seleziona campi e selezionare Aggiungi processore > Stringhe.
-
Collegare il processore Seleziona campi al processore Stringhe.
-
Rinominare il processore come Maiuscolo usando l'icona Modifica (
) nel pannello delle proprietà.
-
Nell'elenco a discesa del Nome funzione, selezionare Converti in maiuscole.
-
Nell'elenco a discesa Campi da elaborare, selezionare CONTACTLASTNAME.
-
Fare clic su Applica.
Aggiunta di una destinazione ed esecuzione del flusso di dati
Le fasi principali della preparazione dei dati sono terminate e ora è possibile finalizzare il flusso di dati configurando le modalità di esportazione dei dati risultanti. In questo scenario, bisogna esportare i dati preparati come file .qvd memorizzati direttamente nel catalogo, rendendoli facili da utilizzare in un'app analitica in un secondo momento, ad esempio.
-
Fare clic sul menu di azione (
) del processore Stringhe e selezionare Aggiungi destinazione > File di dati.
-
Collegare il processore Stringhe alla Destinazione file di dati.
-
Rinominare il processore come Destinazione QVD usando l'icona Modifica (
) nel pannello delle proprietà.
-
Nell'elenco a discesa Spazio, selezionare Personale.
-
Nel campo Nome file, inserire tutorial_output.
-
Nell'elenco a discesa Estensione, selezionare .qvd.
-
Fare clic su Applica.
Il flusso di dati è ora completo e valido, come mostrano lo stato nella barra d'intestazione e i segni di spunta verdi sotto ogni nodo di origine, processore e destinazione.
-
Fare clic sul pulsante Esegui flusso in alto a destra della finestra.
Si apre un modale per mostrare l'avanzamento dell'esecuzione.
Dopo un po' di tempo, la finestra si chiude e si apre una notifica che indica se l'esecuzione è riuscita o meno. L'output del flusso di dati ora è disponibile nel catalogo o nella sezione Output del pannello Panoramica del flusso di dati.
Novità
Si è appreso come importare i dati di origine nel catalogo, creare un semplice flusso di dati per filtrare e migliorare i dati ed esportare il risultato della preparazione come un file pronto all'uso.
Per conoscere i molteplici modi di utilizzare il flusso di dati per i propri casi d'uso, è possibile dare un'occhiata all'elenco completo di Processori del flusso di dati e alle funzioni che offrono.
Per maggiori informazioni su come utilizzare i dati preparati nelle applicazioni analitiche, vedere Creazione di analisi e visualizzazione dei dati.