Skapa och hantera data marts
När du har integrerat dina data kan du sedan skapa data marts med hjälp av data från uppgifterna Lagring eller Transformera . Du kan skapa valfritt antal data marts beroende på dina affärsbehov. Helst bör dina data marts innehålla databaser med sammanfattade data som samlats in för analys av ett specifikt delavsnitt eller enhet inom en organisation, till exempel försäljningsavdelningen.
Förutom att lagra tabeller i datalagret kan du också lagra tabeller som Iceberg-tabeller som hanteras av dataplattformen. Detta alternativ är för närvarande endast tillgängligt för Snowflake-projekt. Detta är möjligt genom att välja Snowflake-hanterade Iceberg-tabeller under Tabelltyp i uppgiftsinställningarna.
Förutsättningar
Du kan använda datauppgifter av följande typer som källa för en data mart:
-
Lagring
-
Transformera
Innan du kan skapa en data mart måste du göra följande i källdatauppgifterna:
- Fyll datauppsättningarna med data som du vill använda i din data mart. Mer information finns i Introduktion av data till ett datalager.
-
Skapa en relationsmodell för datauppsättningar för att definiera relationerna mellan källdatauppsättningarna. Mer information finns i Skapa en datamodell.
Anteckning om varningAlla källdatauppsättningar måste ha nycklar.
Skapa en data mart
Gör så här för att skapa en data mart:
-
Öppna ditt projekt.
-
Gör något av följande:
- Klicka på Skapa uppe till höger och välj Skapa data mart.
-
I källdatauppgiften klickar du på
i det nedre högra hörnet och väljer sedan Skapa data mart.
Dialogrutan Skapa data mart öppnas.
-
Ange ett namn för din data mart och, valfritt, ange även en beskrivning.
-
Om du vill konfigurera din data mart senare avmarkerar du kryssrutan Öppna och klickar sedan på Skapa. Annars klickar du bara på Skapa.
Data mart öppnas på fliken Data mart.
- Välj dina källdata enligt beskrivningen i Välja dina källdata
- Om du vill att din data mart ska innehålla dimensioner lägger du till dimensioner enligt beskrivningen i Lägga till dimensioner och ett faktum i data mart
- Om du vill att din data mart ska innehålla ett faktum lägger du till ett faktum enligt beskrivningen i Lägga till ett faktum
- Om din data mart innehåller både dimensioner och ett faktum lägger du till dimensionerna i ditt stjärnschema enligt beskrivningen i Bygga ett stjärnschema
- Skapa datauppsättningarna i din data mart och fyll dem med data enligt beskrivningen i Fylla din data mart
Mer information
Välja dina källdata
Du väljer dina källdata från datauppsättningarna i källdatauppgiften.
Gör så här:
-
Klicka på knappen Välj källdata i mitten av fliken eller klicka på verktygsfältsknappen Välj källdata.
Dialogrutan Välj källdata öppnas.
-
I listrutan Pipeline-projekt väljer du vilket projekt du vill hämta källdata från.
Du kan lägga till datauppsättningar från det aktuella projektet eller från ett annat projekt. För att lägga till datauppsättningar från ett annat projekt:
-
Du måste ha minst rollen Kan konsumera i utrymmet för det konsumerade projektet.
-
Båda projekten måste vara på samma dataplattform.
Om det valda projektet är under versionskontroll kan du välja vilken gren som ska användas som källa. Mer information om pipelines över flera projekt finns i Bygga pipelines över flera projekt.
-
-
I listrutan Datauppgifter väljer du en Lagring-uppgift, eller en Transformera-uppgift om du har skapat transformationer.
-
Lämna antingen standardvärdet % för att söka efter alla datauppsättningar eller ange namnet på en specifik datauppsättning att hitta. Klicka sedan på Sök.
-
Välj önskade datauppsättningar och klicka sedan på Lägg till valda tabeller.
-
Klicka på OK för att stänga dialogrutan och fortsätt sedan till Lägg till ett faktum och/eller Lägg till dimensioner.
Lägga till dimensioner och ett faktum i data mart
När du har valt dina källdata kan du sedan fortsätta att bygga din data mart. En data mart kan ha en faktadatauppsättning, dimensionsdatauppsättningar eller en kombination av båda (där dimensionsdatauppsättningarna är logiskt relaterade till faktadatauppsättningen).
Lägga till dimensioner
För att lägga till en dimension.
-
Klicka på knappen Lägg till dimension.
Dialogrutan Lägg till dimension öppnas.
-
Följande inställningar är tillgängliga:
- Mest granulära datauppsättning: Välj en datauppsättning.
- Namn: Ange ett visningsnamn för dimensionen. Standard är namnet på den mest granulära datauppsättningen.
- Beskrivning: Ange valfritt en beskrivning.
- Historiktyp: Välj något av följande:
- Typ 1: Den befintliga posten i dimensionen uppdateras när motsvarande post i Lagring uppdateras.
- Typ 2: En ny post läggs till i dimensionen när motsvarande post i Lagring uppdateras.
-
Relaterad datauppsättning att avnormalisera: Alla datauppsättningar som kan avnormaliseras i dimensionsdatauppsättningen (enligt relationerna i källdatatillgångsmodellen) kommer att vara tillgängliga för val här.
Exempel på en dimension som kan avnormaliseras
-
Klicka på OK för att spara dina inställningar.
Dimensionen läggs till i listan Dimensioner till vänster.
Se även Rollspelande dimensioner.
Visa information om en dimension
När du väljer en dimension visas fliken Källrelationsmodell i mittfönstret. Den här fliken visar källdatauppsättningarna som är konsoliderade i dimensionen. Datauppsättningar som du valde att avnormalisera när du lade till dimensionen visas som valda (och nedtonade).
Lägga till ett faktum
För att lägga till ett faktum:
-
Klicka på knappen Lägg till faktum.
Dialogrutan Lägg till faktum öppnas.
-
Följande inställningar är tillgängliga:
- Faktum: Välj en datauppsättning som ska vara faktumet. Datauppsättningen bör definiera granulariteten för det faktum du skapar.
- Namn: Ange ett visningsnamn för faktumet. Standard är faktumnamnet.
- Beskrivning: Ange valfritt en beskrivning.
- Relaterade datauppsättningar att avnormalisera: Alla datauppsättningar som kan avnormaliseras i din faktadatauppsättning kommer att vara tillgängliga för val här.
- Avancerat
- Använd aktuella data: När detta är valt (standard) kommer faktumet inte att innehålla en kolumn för transaktionsdatum.
-
Välj transaktionsdatum: För att hitta data enligt ett specifikt transaktionsdatum väljer du det här alternativet och väljer sedan en datumkolumn. Detta är användbart om ditt stjärnschema innehåller typ 2-dimensioner och du behöver hitta rätt data för en specifik transaktion. Om en kund till exempel har flera adresser kan det vara möjligt att hitta rätt adress enligt orderdatumet.
Exempel på användningsfall:
En återförsäljare behöver skapa en data mart för att analysera relationen mellan beställningar och kunder. Data marten bör kunna svara på frågor som: Vilken amerikansk delstat hade den högsta summan av beställningar under fjärde kvartalet 2022?
Om återförsäljaren väljer alternativet Använd aktuella data kommer endast den mest aktuella postversionen i tabellen Kunder att inkluderas i beräkningen.
Att ignorera transaktionsdatumet kommer att resultera i felaktiga data enligt illustrationen nedan:
Om återförsäljaren däremot väljer alternativet Välj transaktionsdatum kommer kundens beställningar att associeras med rätt postversion i tabellen Kunder .
Detta gör det möjligt för återförsäljaren att korrekt beräkna den totala summan av beställningar per delstat under fjärde kvartalet 2022.
Anteckning om tipsObservera att transaktionsdatumet kan utnyttjas på olika sätt i varje data mart, beroende på affärsbehov. I en data mart kan det till exempel användas för att analysera orderdatum, medan det i en annan data mart kan användas för att analysera leveransdatum.
-
Klicka på OK för att spara dina inställningar.
Faktumet läggs till i listan Fakta till vänster.
Visa information om faktumet
När du väljer ett faktum visas följande flikar i mittfönstret:
- Stjärnschemamodell (standard): Visar en grafisk representation av datauppsättningarnas relationer inom data marten.
-
Faktamodell: Visar alla datauppsättningar relaterade till faktadatauppsättningen. Datauppsättningar som du valde att avnormalisera när du lade till faktumet visas som valda (och nedtonade).
Faktumet Beställningsdetaljer med en avnormaliserad datauppsättning för Beställningar
- Transaktionsdatum: Namnet på transaktionskolumnen om du valde alternativet Välj transaktionsdatum när du lade till faktumet.
Hantering av okända och sent anländande dimensioner
Varje dimension innehåller raderna -1 och 0, vilka är dimensionens affärsnyckel (objekt-ID). Rad -1 är reserverad för sent anländande dimensioner, medan 0 är reserverad för okända dimensioner.
Okända dimensioner
"Okänd" är data som var otillgängliga när dimensionen ursprungligen skapades. Låt oss till exempel säga att du har ett ORDER-faktum med en SHIPPER-kolumn som är affärsnyckeln för SHIPPER-dimensionen. Om ORDER-faktaraden inte har skickats ännu - och därmed har NULL för SHIPPER-kolumnen - kommer den att relateras till posten 0 (vilket betecknar en Okänd för dimensionen). När ORDER-faktumet senare uppdateras med ett SHIPPER-värde (till exempel USPS), kommer det relaterade dimensions-ID:t (0) att uppdateras i sin tur.
Sent anländande dimensioner
En sent anländande dimension har en nyckel som finns i de nya faktadata, men som ännu inte finns i dimensionen. Om till exempel SHIPPER i ORDER-faktumet har värdet "NEWSHIP" för en ny avsändare och den affärsnyckeln ännu inte finns i DIM_SHIPPER-dimensionen, kommer data mart-bearbetningen att relatera det faktumet till raden -1. Detta betecknar en saknad dimensionsmedlem i din dimensionstabell. När affärsnyckeln "NEWSHIP" anländer för DIM_SHIPPER-dimensionen kommer dess dimensionsrad att skapas, och faktaposten uppdateras för att anpassas till den tidigare saknade dimensionen.
Bygga ett stjärnschema
När du har lagt till dimensioner i din data mart kan du sedan fortsätta att koppla dem till din faktadatauppsättning och därmed skapa ett stjärnschema.
Gör så här:
- Välj ditt faktum i listan Fakta till vänster.
-
Välj vilka dimensioner som ska läggas till från listan Rekommenderade dimensioner till höger.
Rekommenderade dimensioner visas anslutna till faktadatauppsättningen med en streckad linje.
På bilden nedan lades några av dimensionerna till tidigare och är därför anslutna med en heldragen grå linje.
-
Klicka på Tillämpa för att lägga till dimensionerna.
Dimensionerna visas anslutna till faktadatauppsättningen med en heldragen grå linje.
-
För att stänga panelen Rekommenderade dimensioner klickar du på
.
Fylla din data mart
När du har designat din data mart kan du sedan fortsätta att fylla den.
Gör så här:
-
Klicka på verktygsfältsknappen Förbered uppe till höger.
Förberedelseprocessen inkluderar att skapa datauppsättningar och vyer i data marten, och att uppdatera katalogen.
Du kan följa förloppet under Förberedelseförlopp i den nedre delen av skärmen.
När förberedelsen är klar ändras knappen Förbered till Kör.
-
Valfritt, validera data marten enligt beskrivningen i Validera och synkronisera din data mart nedan.
-
Klicka på knappen Kör .
Fönstret växlar till vyn Övervaka , som visar inläsningsförloppet och statusen för datauppsättningarna i din data mart.
Varje källpost kommer att bearbetas av data marten, även raderade poster. Detta görs för att säkerställa att historisk information bevaras.
Validera och synkronisera din data mart
Att validera data marten säkerställer att data mart-metadata är identiska med motsvarande metadata i Lagring (eller Transformera om det är definierat). Att validera data marten jämför också de skapade metadata mot den aktuella stjärnschemadesignen. Om du till exempel kör valideringen efter att ha lagt till en dimension i en redan skapad data mart kommer valideringen att misslyckas.
För att validera data marten:
-
Välj antingen Validera datauppsättningar från menyn
till höger om knappen Kör eller klicka på knappen Validera datauppsättningar längst ner till höger i fönstret.
Ett meddelande om att Valideringen är slutförd visas.
-
Om metadata inte är synkroniserade eller om det finns konflikter i stjärnschemadesignen öppnas rutan Validera och justera längst ner i fönstret automatiskt med valideringsrapporten.
Exempel på en data mart med en konflikt i stjärnschemadesignen:
Exempel på en data mart med valideringsfel:
-
För att lösa eventuella problem med Väntande designändringar klickar du på knappen
uppe till höger och väljer Förbered. Om värdet i kolumnen Kan ändras utan dataförlust är Ja utförs en ALTER-åtgärd. Annars återskapas data mart-tabellerna.
Observera att alla Valideringsfel måste lösas manuellt.
Hantera data marts
Det här delavsnittet beskriver de olika alternativen som finns för att hantera dina datauppsättningar och data marts.
Förfina fakta eller dimensioner
På fliken Datauppsättningar kan du utföra olika åtgärder för att förfina dina fakta och dimensioner, till exempel skapa transformationsregler (till exempel ersätta kolumnvärden) och lägga till uttryck på kolumnnivå. Fliken Datauppsättningar finns till höger om fliken Data mart :
Lägga till regler
För en förklaring av hur du lägger till globala regler, se Skapa regler för att omvandla datauppsättningar
Lägga till nya kolumner
Du kan lägga till nya kolumner i måldatauppsättningen.
-
Lägga till en ny kolumn från början
Klicka på + Lägg till.
Ange ett namn för kolumnen och ställ in ett uttryck för att definiera kolumndata.
Mer information finns i Lägga till kolumner i en datauppsättning.
-
Lägga till en kolumn från källan
Klicka på
bredvid Lägg till och välj Lägg till kolumn från källan.
Välj en kolumn från källdatauppsättningen.
Ändra ordning på kolumner
Du kan ändra ordningspositionen för en kolumn.
-
Välj en kolumn.
-
Klicka på
och sedan på Ändra ordning.
-
Använd pilarna för att flytta kolumnen uppåt eller nedåt.
-
Stäng Ändra ordningstal när du är klar.
Rollspelande dimensioner
En rollspelande dimension är samma dimension som används flera gånger inom samma stjärnschema, men med olika betydelser. Detta ses ofta med dimensionerna Datum och Kund. Till exempel kan ditt stjärnschema ha två Datum-entiteter, en som representerar Orderdatum och den andra som representerar Mottagningsdatum.
För att lägga till eller redigera en dimensions rollnamn:
- Klicka på ikonen
i dimensionsnoden och välj Redigera dimensionsnamn i detta stjärnschema.
-
I dialogrutan Redigera dimensionsnamn i detta stjärnschema anger du ett namn (eller redigerar det befintliga namnet) i fältet Dimensionsnamn i detta stjärnschema och klickar på OK.
Det nya namnet visas under det ursprungliga dimensionsnamnet.
Ytterligare hanteringsalternativ
Följande tabell beskriver ytterligare hanteringsalternativ:
| För att | Gör så här |
|---|---|
| Lägga till ytterligare källdatauppsättningar | Se Välja dina källdata. |
| Lägga till ytterligare fakta | Se Lägga till ett faktum |
| Lägga till ytterligare dimensioner | Se Lägga till dimensioner och ett faktum i data mart. |
| Ta bort en dimension | Välj dimensionen i rutan Dimensioner och välj sedan Ta bort från menyn |
| Ta bort ett faktum | Välj faktumet i rutan Fakta och välj sedan Ta bort från menyn |
| Återskapa en data mart |
Klicka på knappen Anteckning om informationOm det uppstår problem med enskilda tabeller rekommenderas du att först försöka läsa in tabellerna igen istället för att återskapa dem. Om du återskapar tabeller kan detta leda till att historiska data förloras. Om det sker stora förändringar måste du också förbereda datauppgifter nedströms som använder de återskapade datauppgifterna för att ladda data på nytt.
|
| Stoppa en data mart-uppgift som körs | Klicka på knappen Stoppa uppe till höger. |
| Förbereda en data mart-uppgift |
Klicka på knappen
Du kan följa förloppet under Förberedelseförlopp i den nedre delen av skärmen. Anteckning om informationInnan du förbereder en uppgift ska du stoppa alla uppgifter som ligger direkt nedströms.
|
Schemalägga en data mart-uppgift
Du kan schemalägga en data mart-uppgift så att den uppdateras regelbundet. Du kan ställa in ett tidsbaserat schema eller ställa in uppgiften så att den körs när indatauppgifter har slutförts.
Klicka på ... på en datauppgift och välj Schemaläggning för att skapa ett schema. Standardschemaläggningsinställningen ärvs från inställningarna i projektet. Mer information om standardinställningar finns i Standardvärden för datamarknad.
Du måste ställa in Schemaläggning på På för att aktivera schemat.
Tidsbaserade scheman
Du kan använda ett tidsbaserat schema för att köra uppgiften oavsett när de olika indatakällorna uppdateras.
-
Välj Vid specifik tidpunkt i Kör datauppgiften.
Du kan ställa in ett schema per timme, dag, vecka eller månad.
Händelsebaserade scheman
Du kan använda ett händelsebaserat schema för att köra uppgiften när indatauppgifter har slutförts.
-
Välj Vid specifik händelse i Kör datauppgiften.
Du kan välja om du vill köra uppgiften när någon av indatauppgifterna har slutförts framgångsrikt, eller när någon av ett urval av indatauppgifter har slutförts framgångsrikt.
Ladda om data
Du kan utföra en manuell omladdning av data. Detta är användbart när det finns problem med en eller flera tabeller.
-
Öppna datauppgiften och välj fliken Övervaka.
-
Välj de tabeller som du vill ladda om.
När en dimension väljs för omladdning kommer alla fakta som använder den dimensionen också att laddas om för att upprätthålla integriteten.
-
Klicka på Ladda om tabeller.
Du kan avbryta omladdningen för tabeller som väntar på omladdning genom att klicka på Avbryt omladdning. Detta påverkar inte tabeller som redan har laddats om, och omladdningar som för närvarande körs kommer att slutföras.
Omladdningen utförs genom att:
-
Trunkera de valda dimensionerna och fakta.
-
Ladda de valda dimensionstabellerna från uppströmsdatauppgiften.
-
Ladda faktatabellerna från uppströmsdatauppgiften. Detta inkluderar:
-
Uttryckligen valda faktatabeller.
-
Faktatabeller som är relaterade till en dimension som laddas om.
-
Ta bort en uppgift
Du kan ta bort datauppgiften om den inte körs och det inte finns några beroenden till efterföljande uppgifter i samma projekt.
-
I projektvyn Pipelineprojekt klickar du på
på en uppgift och väljer Ta bort.
Artefakter (tabeller och vyer) som skapats av uppgiften kommer också att tas bort, om du inte väljer att behålla dem.
Visa uppgiftsinformation
Klicka på i menyraden för att visa uppgiftsinformation, till exempel:
-
Ägare
-
Utrymme
-
Dataplattform
-
Projekt-id
-
Körnings-ID för datauppgift
Data mart-inställningar
Klicka på verktygsfältsknappen Inställningar för att öppna dialogrutan Inställningar: <data-mart-namn>.
Allmänna inställningar
På fliken Allmänt finns följande inställningar tillgängliga:
- Databas: Databasen där data marten kommer att skapas
- Datauppgiftsschema: Schemat där datauppsättningarna kommer att skapas
- Internt schema: Schemat där de interna datauppsättningarna kommer att skapas
-
Standardversalisering av schemanamn
Du kan ställa in standardversalisering för alla schemanamn. Om din databas är konfigurerad för att tvinga fram versalisering kommer det här alternativet inte att ha någon effekt.
- Prefix för alla tabeller och vyer
Du kan ange prefix för alla tabeller och vyer som skapas av uppgiften.
Anteckning om informationDu måste använda ett unikt prefix om du vill använda ett databasschema i flera datauppgifter. -
Publicera i katalogen
Välj det här alternativet för att publicera den här versionen av data till Katalogen som en datauppsättning. Kataloginnehållet kommer att uppdateras nästa gång du förbereder den här uppgiften.
Mer information om Katalog finns i Förstå data med hjälp av katalogverktyg.
Körningsinställningar
På fliken Körning finns följande inställningar tillgängliga:
- Parallell körning: Ange det maximala antalet databaskopplingar som Qlik Cloud tillåts öppna för uppgiften. Standardantalet är 10.
- Warehouse: Endast relevant för Snowflake. Namnet på Snowflake-datalagret.
Vytypsinställningar
Vytypsinställningarna är endast tillämpliga för Snowflake.
-
Standardvyer
Använd Standardvyer i de flesta fall.
-
Säkra Snowflake-vyer
Använd säkra Snowflake-vyer för vyer som är avsedda för datasekretess eller skydd av känslig information, till exempel vyer som skapats för att begränsa åtkomsten till känsliga data som inte bör exponeras för alla användare av de underliggande tabellerna.
Anteckning om information Säkra Snowflake-vyer kan köras långsammare än Standardvyer.
Tabelltypsinställningar
Dessa inställningar är endast tillgängliga i projekt med Snowflake som dataplattform.
-
Tabelltyp
Du kan välja vilken typ av tabell som ska användas:
-
Snowflake-tabeller
-
Iceberg-tabeller som hanteras av Snowflake
Du måste ange standardnamnet på den externa volymen i Snowflake external volume.
-
-
Mapp att använda i molnet
Välj vilken mapp som ska användas när data mellanlagras i mellanlagringsområdet.
-
Standardmapp
Detta skapar en mapp med standardnamnet: <projektnamn>/<datauppgiftens namn>.
-
Rotmapp
Lagra data i lagringens rotmapp.
-
Mapp
Ange namnet på mappen som ska användas.
-
-
Synka med Snowflake Open Catalog
Aktivera detta för att låta Snowflake Open Catalog hantera filerna i fillagringen i molnet.
Bästa praxis
-
Det är inte möjligt att byta källa för en datauppsättning om fakta och dimensioner har lagts till. Om du vill vara flexibel kan du lägga till en föregående Transformera-uppgift med icke-materialiserade vyer som kan användas för att byta källor och även för att ha en modell för alla källuppgifter.
Begränsningar
Det finns begränsningar när du använder källdatauppsättningar som uppfyller alla dessa villkor:
-
Skapad av SQL-transformation eller ett transformeringsflöde
-
Icke-materialiserad
-
Historisk datalagring (typ 2) inaktiverad
Dessa datauppsättningar anses vara uppdaterade vid varje körning, vilket kan påverka effektiviteten och kostnaderna. Du kan mildra detta genom att:
-
Ändra de källdatauppsättningar som ska materialiseras.
-
Använda uttryckliga datauppsättningstransformationer.
-
Skapa globala regler som omvandlar flera datauppsättningar.
Relationer
-
Det är inte möjligt att relatera data från två dataset. Skapa en transformeringsuppgift där du definierar relationen i datamodellen och använd transformeringsuppgiften som källa för uppgiften.
-
När två datauppsättningar är relaterade i datamodellen kommer båda datauppsättningarna att vara tillgängliga i uppgiften, även om du bara har valt en av datauppsättningarna.