Introduktionskurs – Dataflöde för nybörjare

Denna introduktionskurs presenterar ett grundläggande användningsfall för dataförberedelse för att göra dig mer bekant med de olika steg som krävs för att bygga ett dataflöde och de olika möjligheter som erbjuds. Med det bifogade paketet som innehåller ett par datauppsättningar kommer du att kunna reproducera alla steg i denna introduktionskurs.

Detta scenario kommer att fokusera på ett urval av försäljningsdata med kunder från hela världen och information om deras namn, orderdatum och status, ursprungsland, stater, adresser, telefonnummer osv. Låt oss anta att du vill förbereda data så att de fokuserar på kunderna från USA. Du kommer att isolera alla uppgifter om amerikanska kunder, lägga till saknad information om ursprungsstater, göra en mindre formateringsändring och exportera uppgifterna till en ny fil som du kan använda som datakälla för t.ex. en analysapplikation.

Förutsättningar

Hämta det här paketet och packa upp det på ditt skrivbord:

Dataflöde introduktionskurs för nybörjare

Paketet innehåller följande datafiler som du behöver för att gå igenom den här introduktionskursen:

sales_data_sample.xlsx
states.xlsx

Lägga till källfilerna i din katalog

Innan du börjar skapa dataflödet måste de två filerna från paketet finnas tillgängliga i analysplattformen. Så här lägger du till källdata i din katalog:

Välj Analyser > Katalog från Start-menyn.
Klicka på Skapa ny knapp längst upp till höger och välj Datauppsättning
I fönstret som öppnas, klicka på Läs in datafil.
Dra och släpp introduktionskursfilerna från skrivbordet till det avsedda området i fönstret Lägg till fil, eller klicka på Bläddra för att välja dem från deras plats.
Klicka på Ladda upp.

Skapa dataflöde och lägga till en källa

Nu när bitarna är klara kan du börja skapa dataflödet, med början från källan.

I menyn Start väljer du Analys > Förbered data.
Klicka på rutan Dataflöde eller klicka på Skapa ny > Dataflöde.
I fönstret Skapa ett nytt dataflöde anger du informationen för ditt dataflöde enligt följande och klickar på Skapa:
- Introduktionskurs i dataflöde som Namn.
- Personligt som Utrymme.
- Dataflöde för att förbereda försäljningsdata med fokus på amerikanska kunder som Beskrivning.
- Introduktionskurs som Tagg.
Ditt tomma dataflöde öppnas.
Klicka på Bläddra i katalog på den tomma arbetsytan för att börja titta på datauppsättningar som har lagts till i din katalog.
Använd filter för att söka efter datauppsättningarna sales_data_sample.xlsx och states.xlsx som laddats upp tidigare och markera kryssrutorna framför deras namn.
Klicka på Nästa.
Granska datauppsättningarna och deras fält i sammanfattningen och klicka på Läs in i dataflöde.

Båda datauppsättningskällorna läggs till på arbetsytan och du kan börja förbereda data med hjälp av processorer. sales_data_sample.xlsx är den huvudsakliga datauppsättningen som du kommer att arbeta med, medan states.xlsx kommer att användas som ytterligare data.

Filtrering av data om amerikanska kunder

Du kan nu börja förbereda data med successiva ändringar genom att använda processorer. Det första steget är att minska omfattningen av datauppsättningen och endast fokusera på USA-baserade kunder. Det gör du genom att använda Filter-processorn för att välja endast de rader som har ett USA-värde i fältet LAND.

Klicka på åtgärdsmenyn () för källan sales_data_sample på arbetsytan.
I menyn som öppnas väljer du Lägg till processor > Filter.

Filter-processorn placeras på arbetsytan, redan kopplad till källnoden.

Anteckning om informationDet är också möjligt att manuellt dra och släppa processorer från vänsterpanelen Processorer och ansluta noder manuellt.
Om den inte redan är öppnad klickar du på Egenskaper längst upp till höger på arbetsytan för att öppna panelen för processorns egenskaper, där du kan konfigurera dina processorer och titta på förhandsgranskningen av data och skriptet.
I egenskapspanelen klickar du på ikonen Redigera () bredvid processornamnet för att ge processorn ett mer betydelsefullt namn, t.ex. USA-filter, och en kort beskrivning, t.ex. Filter för USA-kunder.
Välj LAND i listrutan Fält att processa.
Välj = i listrutanOperatör.
I fältet Använd med väljer du Värde och skriver in USA.
Välj Alla filter i listan Välj rader som matchar.

Dessa parametrar är mer användbara när man kombinerar flera filter.
Klicka på Tillämpa.

Processorkonfigurationen är giltig, men meddelandet Inte kopplat visas fortfarande eftersom processorn ännu inte har något utflöde.
Klicka på Förhandsgranska data i den nedre panelen.

I förhandsgranskningen kan du se att endast raderna med USA som land har behållits i det här skedet och kommer att spridas i utdataflödet. Ditt dataflöde hittills bör se ut enligt följande:

Lägga till delstatsnamn från en annan datauppsättning

När det gäller de återstående USA-baserade kunderna innehåller fältet STAT ursprungsstaten, men som en tvåstavig kod. Du skulle vilja göra denna information mer lättläst, helst med delstatens fullständiga namn.

Datauppsättningen states.xlsx som du tidigare har importerat som källa råkar innehålla en referens till alla amerikanska delstater med de tvåstaviga koderna, samt motsvarande fullständiga namn. Du kommer att utföra en koppling mellan dessa två datauppsättningar för att hämta staternas namn och komplettera ditt huvudflöde.

Referensdatauppsättning med delstatsnamn

Två datauppsättningar måste ha minst ett gemensamt fält för att vara berättigade till en koppling.

För att utföra kopplingen:

Klicka på åtgärdsmenyn () för Filter-processorn och välj Lägg till processor till matchande gren > Koppla.
Byt namn på processorn till Fullständiga delstatsnamn med hjälp av Redigera-ikonen () i egenskapspanelen.
Koppla Delstats-källan till Kopplings-processorns nedre förankringspunkt. Skapa en länk genom att klicka på punkten till höger om källnoden, håll kvar och dra länken till den nedersta punkten till vänster om processornoden.
Välj Vänster yttre koppling i listrutan Kopplingstyp.
Välj fältet DELSTAT i listrutan Vänster nyckel.
Välj fältet Förkortning i listrutan Höger nyckel.

De två valda kolumnerna innehåller den gemensamma informationen och möjliggör en länk mellan de två inmatningsflödena. Med en yttre vänsterkoppling läggs endast de ytterligare fälten från den andra datauppsättningen till i huvudflödet.
Klicka på Tillämpa.

Ett nytt fält Delstat har lagts till i slutet av datauppsättningen, med det fullständiga namnet på delstaten för varje kund.

Byta namn och flytta på fält

Det finns nu flera problem med namngivningen och formateringen av dina kolumner. DELSTAT och Delstat är alltför lika och förvirrande, och de två fälten är alltför långt ifrån varandra. För att förbättra konsekvensen i dina data kan du kan använda Välj fält-processorn för att byta namn på och flytta runt dina fält .

Klicka på åtgärdsmenyn () för Kopplings-processorn och välj Lägg till processor > Välj fält.
Koppla Kopplings-processorn till Välj fält-processorn.
Byt namn på processorn till Omorganisera delstatsfält med hjälp av Redigera-ikonen () i egenskapspanelen.
Klicka på kryssrutan Välj alla för att behålla alla fält i ditt flöde.
Håll muspekaren över de fält som ska byta namn och klicka på ikonen Redigera för att redigera de två fältnamnen enligt följande:
- DELSTAT som DELSTATSKOD
- Delstat som DELSTATSNAMN
Använd =-ikonen för att dra och släppa den nya kolumnen DELSTATSNAMN bredvid DELSTATSKOD.
Klicka på Tillämpa.

Du har omorganiserat dina fält och dataflödet ser ut så här:

Skriva kundnamn i versaler

För att lyfta fram kundernas efternamn och göra det lättare att skilja dem från förnamnen använder du en enkel formatering i Sträng-processorn för att skriva efternamnen i versaler.

Klicka på åtgärdsmenyn () för Välj fält-processorn och välj Lägg till processor > Strängar.
Koppla Välj fält-processorn till Sträng-processorn.
Byt namn på processorn till Versaler med hjälp av Redigera-ikonen () i egenskapspanelen.
I listrutan Funktionsnamn väljer du Ändra till versaler.
Välj KONTAKTEFTERNAMN i listrutan Fält att bearbeta.
Klicka på Tillämpa.

Lägga till ett mål och köra dataflödet

De viktigaste stegen i dataförberedelserna är klara och du kan nu slutföra dataflödet genom att konfigurera hur du ska exportera de data som blir resultatet. I det här scenariot exporterar du den förberedda datan som en .qvd-fil som lagras direkt i din katalog, vilket gör det bekvämt att använda den i exempelvis en analysapplikation senare.

Klicka på åtgärdsmenyn () för Sträng-processorn och välj Lägg till mål > Datafiler.
Koppla Sträng-processorn till Målet för datafiler.
Byt namn på processorn till QVD-mål med hjälp av Redigera-ikonen () i egenskapspanelen.
Välj Personal i listrutan Utrymme.
Ange tutorial_output i fältet Fältnamn.
Välj .qvd i listrutan Komplement.
Klicka på Tillämpa.

Dataflödet är nu komplett och giltigt, vilket visas av statusen i rubriken och de gröna bockarna under varje källa, processor och målnod.
Klicka på knappen Kör flöde längst upp till höger i fönstret.

En modal öppnas för att visa hur körningen fortskrider.

Efter en stund stängs fönstret och ett meddelande öppnas för att berätta om körningen lyckades eller inte. Dataflödets utdata finns nu i din katalog eller i delavsnittet Utdata i panelen Översikt över dataflöde.

Vad är nytt

Du har lärt dig hur du importerar källdata till din katalog, bygger ett enkelt dataflöde för att filtrera och förbättra dina data och exporterar resultatet av din förberedelse som en fil färdig att använda.

För att lära dig mer om de många olika sätten att använda dataflöde för dina egna användningsfall kan du ta en titt på hela listan över Processorer för dataflöde och de funktioner de erbjuder.

Mer information om hur du använder dina förberedda data i analysprogram finns i Skapa analyser och visualisera data.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här