Hantera datauppsättningar
Du kan hantera de datauppsättningar som ingår i datauppgifter för Mellanlagring, Lagring, Omvandling, Datamart och Replikering för att skapa omvandlingar, filtrera data och lägga till kolumner.
De datauppsättningar som ingår listas under Datauppsättningar i vyn Design. Du kan välja vilka kolumner som visas med kolumnväljaren ().
Omvandlingsregler och explicita omvandlingar
Du kan utföra både globala och uttryckliga omvandlingar.
Omvandlingsregler
Du kan utföra globala omvandlingar genom att skapa en omvandlingsregel som använder % som jokertecken i omfattningen så att den används på alla matchande datauppsättningar.
-
Klicka på Regler och sedan på Lägg till regel för att skapa en ny omvandlingsregel.
Mer information finns i Skapa regler för att omvandla datauppsättningar.
Omvandlingsregler visas med ett mörklila hörn på det attribut som påverkas.
Uttryckliga omvandlingar
Uttryckliga omvandlingar skapas:
-
När du använder Redigera för att ändra ett kolumnattribut
-
När du använder Byt namn på en datauppsättning.
-
När du lägger till en kolumn.
Uttryckliga omvandlingar åsidosätter globala omvandlingar, och anges med ett ljuslila hörn på det berörda attributet.
Datauppsättningsmodeller
Datauppsättningar kan vara antingen källbaserade eller målbaserade, beroende på uppgiftstyp och åtgärder i uppgiften. Den modell för datauppsättning som används påverkar pipelines beteende vid ändringar i källan och vilka åtgärder du kan utföra.
-
Källbaserade datauppsättningar
Datauppsättningen baseras på källdatauppsättningar och kommer endast att innehålla förändringar i metadata. En ändring i källdata tillämpas automatiskt vilket kan orsaka ändringar i alla nedströmsuppgifter. Det är inte möjligt att ändra kolumnordning eller att ändra källdatauppsättning.
Följande uppgiftstyper använder alltid en källbaserad datauppsättningsmodell: mellanlagring, lagringsplats, registrerade data, replikering och mellanlagra data i datasjö.
-
Målbaserade datauppsättningar
Datauppsättningen baseras på målets metadata. Om en kolumn läggs till eller tas bort från källan tillämpas den inte automatiskt på nästa nedströmsuppgift. Du kan ändra ordningen på kolumnerna och källdatauppsättningen. Detta innebär att uppgiften är mer fristående och låter dig kontrollera effekten av källändringar.
Följande uppgiftstyper kan använda en målbaserad datauppsättningsmodell: transformation, datamart. Det finns vissa fall där en källbaserad modell används för transformation av uppgifter baserat på driften.
-
Om en SQL-transformation eller ett transformationsflöde utför ett val av kolumn kommer datauppsättningen att vara målbaserad. Om du exempelvis använder SELECT A, B, C from XYZ i en SQL-transformering eller om du använder processorn välj kolumner i ett transformeringsflöde.
-
Om standardkolumnerna bibehålls är datauppsättningen källbaserad. Exempelvis om du använder SELECT * from XYZ i en SQL-transformering.
-
Uppdatera projekt från en källbaserad modell till en målbaserad modell
Befintliga projekt kommer att uppdateras till den nya målbaserade datauppsättningsmodellen i förekommande fall. Du kommer att guidas genom uppdateringsförfarandet när du först öppnar projektet. Det finns några saker att tänka på när du importerar och exporterar projekt med olika datauppsättningsmodeller.
-
Det är inte möjligt att importera ett projekt med en källbaserad modell till ett projekt med en målbaserad modell.
Importera projektet med en källbaserad modell till ett nytt projekt, uppdatera det nya projektet och exportera sedan det resulterande projektet. Du kan nu återimportera detta projekt till projektet med en målbaserad modell.
-
Det är inte möjligt att importera ett projekt med en målbaserad modell till ett projekt med en källbaserad modell.
Uppdatera projektet till en målbaserad modell innan du importerar ett projekt med en målbaserad modell.
Filtrera en datauppsättning
Du kan vid behov filtrera data för att skapa en delmängd av rader.
-
Klicka på Filter.
Mer information finns i Filtrera en datauppsättning.
Byta namn på en datauppsättning
Du kan byta namn på en datauppsättning.
-
Klicka på i ett dataset och sedan på Redigera.
Lägga till kolumner
Du kan vid behov lägga till kolumner med omvandlingar på radnivå.
-
Klicka på Lägg till kolumn
Mer information finns i Lägga till kolumner i en datauppsättning.
Redigera en kolumn
Du kan redigera kolumnegenskaper genom att välja en kolumn och klicka på Redigera.
-
Namn
-
Nyckel
Välj en kolumn som primär nyckel. Du kan också ställa in nycklar genom att markera eller avmarkera i Nyckel-kolumnen.
-
Nollningsbar
-
Datatyp
Ställ in datatyp för kolumnen. För vissa datatyper kan du ställa in ytterligare en egenskap, till exempel Längd.
Förstå effekten av att ändra en datatyp
Det finns två vanliga användningsfall för att ändra datatypstorlek eller att byta till en annan datatyp.
- Mata in data som inte passar i den aktuella datatypen.
- Ett krav för större numerär noggrannhet. Exempelvis att ändra SMALLINT till DECIMAL (p,s).
I de flesta fall leder ändring av datatyp till en ALTER TABLE-åtgärd vilket förhindrar dataförlust. Om exempelvis föregående datatyp var STRING (25) och den nya datatypen är STRING (50) kommer data i kolumnen med den nya datatypen att uppdateras utan problem. Men i vissa fall leder ändring av datatyp till att resultat i tabellen släpps och återskapas. Om exempelvis föregående kolumndatatyp var NUMBER och du ändrar den till DATE kommer tabellen att släppas och återskapas med siffervärden eftersom omvandling till datum inte är möjligt. På samma sätt, om målplattformen inte har stöd för ALTER tabellåtgärder (som Databricks) släpps tabellen och återskapas.
Det förekommer vissa fall där det är teoretiskt möjligt att ändra en tabell men på grund av underliggande komplexitet kommer datauppgiften att släppas och återskapa tabellen. Slutligen finns det fall där potentiell dataförlust i stället för faktisk dataförlust löser ut ett släpp och en åtgärd för att återskapa. Om du exempelvis ändrar STRING(25) till STRING(1) kommer det att leda till dataförlust om inmatad data inte passar i STRING(1). Men det är möjligt att STRING(25) alltid kommer att behålla enbart ett tecken så i praktiken sker ingen dataförlust men tabellen släpps ändå för att återskapas på grund av potentiell dataförlust.
Ändringar av datatyp som kräver att tabellen släpps och återskapas oberoende av målplattform
Ändra följande datatyper leder till att tabellen släpps och återskapas.
- BYTES
- BLOB
- CLOB
- NCLOB
Målplattformar som har stöd för ändringar av datatypstorlek utan att släppa och återskapa tabellen
När du arbetar med Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server och Azure Synapse Analytics kan du ändra storlek på vissa datatyper utan att tabellen släpps och återskapas. Följande tabell listar vilka datatyper som stöds för var och en av föregående plattformar.
Datatyp | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
Nej |
Ja |
Ja |
Ja |
Nej |
INT2 |
Nej |
Ja |
Ja |
Ja |
Nej |
INT4 |
Nej |
Ja |
Ja |
Ja |
Nej |
INT8 |
Nej |
Ja |
Ja |
Ja |
Nej |
REAL4 |
Nej |
Nej |
Ja |
Ja |
Nej |
REAL8 |
Nej |
Nej |
Ja |
Ja |
Nej |
UINT1 |
Nej |
Ja |
Ja |
Ja |
Nej |
UINT2 |
Nej |
Ja |
Ja |
Ja |
Nej |
UNIT4 |
Nej |
Ja |
Ja |
Ja |
Nej |
UNIT8 |
Nej |
Ja |
Ja |
Ja |
Nej |
Numerisk |
Ja |
Ja |
Ja |
Ja |
Nej |
sträng |
Ja |
Ja |
Ja |
Ja |
Ja |
WSTRING |
Nej |
Ja |
Ja |
Ja |
Nej |
Målplattformar som har stöd för ändringar av datatyper till STRING utan att tabellen släpps och återskapas
När du flyttar data till Microsoft SQL Server och Azure Synapse Analytics kan du ändra följande datatyper till STRING utan att tabellen släpps och återskapas:
- BOOLEAN
- DATE
- TIME
- DATETIME
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- NUMERIC
- WSTRING (stöds enbart med Azure Synapse Analytics)
Ta bort kolumner
Du kan ta bort en eller flera kolumner från en datauppsättning.
-
Välj de kolumner som du vill ta bort och klicka på Ta bort.
Om du vill se borttagna kolumner klickar du på Visa borttagna kolumner. Borttagna kolumner anges med genomstruken text. Du kan hämta en borttagen kolumn genom att markera den och klicka på Återställ.
Återställa uttryckliga ändringar av kolumner
Du kan återställa alla uttryckliga ändringar av en eller flera kolumner.
-
Välj de kolumner som ändringar ska återställas för och klicka på Återställ.
Ändringar från globala omvandlingsregler återställs inte.
Om du återställer en tillagd kolumn tas den bort.
Inställningar för datauppsättningar
Du kan ändra inställningarna för datauppsättningen. Standardinställningen är att ärva inställningen i datatillgången, men du kan också ändra en inställning så att den uttryckligen är Av eller På.
-
Klicka på på en datauppsättning och sedan på Inställningar.
Visa data
Du kan visa ett exempel på data och visa och validera formen på dina data när du utformar din datapipeline.
Följande krav måste vara uppfyllda:
-
Visning av data är aktiverat på klientorganisationsnivån i Administration.
Aktivera Inställningar > Funktionskontroll > Visa data i Dataintegrering.
-
Du har tilldelats rollen Kan visa data i det utrymme där kopplingen finns.
-
Du har tilldelats rollen Kan visa i det utrymme där projektet finns.
För att visa exempeldata i fliken Datauppsättningar i Designvyn:
-
Klicka på Visa data i Fysiska objekt.
Ett urval av data visas. Du kan ställa in hur många datarader som ska tas med i exemplet med Antal rader.
För att växla mellan datauppsättningar och tabeller:
-
Välj Datauppsättningar för att visa den logiska representationen av data.
-
Välj Fysiska objekt för att visa den fysiska representationen i databasen som tabeller och vyer.
Anteckning om nyheterDet här alternativet är inte tillgängligt om den fysiska representationen inte har skapats ännu.
Du kan filtrera exempeldata på två sätt:
-
Använd för att filtrera vilka exempeldata som ska hämtas.
Om du till exempel använder filtret ${OrderYear}>2023 och Antal rader är inställt till 10 kommer du att få ett urval på 10 ordrar från 2024.
-
Filtrera exempeldata efter en specifik kolumn.
Detta kommer bara att påverka befintliga exempeldata. Om du använder så att bara ordrar från 2024 inkluderas och ställer in kolumnfiltret så att ordrar från 2022 visas blir resultatet ett tomt urval.
Du kan också sortera dataurvalet via en specifik kolumn. Sorteringen kommer bara att påverka befintliga exempeldata. Om du använder så att bara ordrar från 2024 inkluderas och inverterar sorteringsordningen kommer exempeldata fortfarande bara innehålla ordrar från 2024.
Du kan dölja kolumner i datavyn:
-
Dölj en enstaka kolumn genom att klicka på på kolumnen och sedan på Dölj kolumn.
-
Dölj flera kolumner genom att klicka på på valfri kolumn och sedan på Visa kolumner. På så sätt kan du kontrollera synligheten för alla kolumner i vyn.
Validera och justera datauppsättningarna
Du kan validera alla datauppsättningar som ingår i dataarbetsuppgiften.
Expandera Validera och justera för att se alla valideringsfel och designändringar.
Validera datauppsättningarna
-
Klicka på Validera datauppsättningar för att validera datauppsättningarna.
I validering ingår kontroll av att:
-
Alla tabeller har en primär nyckel
-
Det inte finns några saknade attribut.
-
Det inte finns någon fördubblad tabell eller kolumnnamn.
Du kommer också att få en lista med designändringar jämfört med källan:
-
Tillagda tabeller och kolumner
-
Släppta tabeller och kolumner
-
Tabeller och kolumner som har bytt namn
-
Ändrade primärnycklar och datatyper
Expandera Validera och justera för att se alla valideringsfel och designändringar.
-
Rätta valideringsfelen och validera datauppsättningarna igen.
-
De flesta designändringar kan justeras automatiskt, utom ändrade primärnycklar och datatyper. I det här fallet måste du synkronisera datauppsättningarna.
Förbereda datauppsättningarna
Du kan förbereda datauppsättningar för att justera designändringar utan att data går förlorade om möjligt. Om det finns designändringar som inte kan justeras utan dataförlust får du möjlighet att återskapa tabeller från källan med dataförlust.
Uppgiften måste då stoppas.
-
Klicka på och sedan på Förbered.
När datauppsättningarna har förberetts ska du validera datauppsättningarna innan du startar om lagringsuppgiften.
Återskapa datauppsättningar
Du kan återskapa datauppsättningarna från källan. När du återskapar en datauppsättning kommer data att gå förlorade. Så länge du har källdata kan du ladda om dem från källan.
Uppgiften måste då stoppas.
-
Klicka på och sedan på Återskapa.
Begränsningar
-
Om du tar bort eller byter namn på en kolumn i Google BigQuery leder det till att tabellen återskapas och till att data förloras.