Registrera data som redan finns på dataplattformen
Du kan registrera data som redan finns på dataplattformen för att kurera och omvandla data och skapa datamarter. Det innebär att du kan använda data som har introducerats med andra verktyg än Qlik Talend Data Integration, till exempel Qlik Replicate eller Stitch.
När du registrerar data skapas två datauppgifter.
-
Registrerade data
I registrering av data ingår att skapa vyer för att förbereda data så att den är redo för att skapa datauppsättningar.
-
Lagringsplats
I detta ingår att generera och lagra datauppsättningar baserat på registrerade data.
När du har registrerat data kan du använda de generade datauppsättningarna på flera olika sätt.
-
Du kan använda datauppsättningarna i en analysapp.
-
Du kan skapa omvandlingar.
-
Du kan skapa en datamart.
Registrera data
Du kan registrera data som finns i molndatalagret som definierats i projektet. De genererade datauppsättningarna kommer att lagras i samma molndatalager.
Mer information om projekt finns i Skapa en datapipeline .
-
Klicka på Skapa och sedan Registrera data i ett projekt.
-
Lägg till Namn och Beskrivning för datauppgiften.
Klicka på Nästa.
-
Välj data att registrera.
Klicka på Nästa.
Inställningar visas.
-
Välj hur data uppdateras i Uppdateringsmetod.
Välj Inkrementell med hjälp av högvattenmärke om data replikeras av Qlik Replicate eller Stitch.
-
Använd Inkrementell med hög vattenstämpel för att bearbeta dataändringar stegvis med ett mönster för hög vattenstämpel. Detta är den föreslagna metoden om data replikeras av Qlik Replicate (med Fullständig laddning och lagra ändringar aktiverat) eller Stitch.
Mer information finns i Uppdateringsmetod.
-
Använd Jämför med aktuell lagringsplats när data bara har lästs in en gång, eller om den uppdateras med fullständiga inläsningar.
-
-
Förhandsgranska de två datauppgifterna som skapas i Sammanfattningen och byt namn på dem om du vill.
Anteckning om tipsNamnen används när databasscheman namnges i lagringsdatauppgiften. Eftersom ett schema bara kan kopplas till en uppgift bör du överväga att använda unika namn så att du undviker konflikter med datauppgifter i andra projekt som använder samma dataplattform. -
Välj om du vill öppna den registrerade datatillgången eller återgå till projektet.
Klicka på Slutför när du är klar.
De två datauppgifterna har nu skapats. För att börja replikera data behöver du:
-
Förbered den registrerade datauppgiften.
Klicka på Förbered i datauppgiften.
När artefakter har skapats är datauppgiftens status Registrerad.
-
Förbered och kör lagringsuppgiften.
Mer information finns i Lagra datauppsättningar
Välja data som ska inkluderas
När du väljer data som ska inkluderas kan du välja specifika tabeller eller vyer eller använda urvalsregler för att inkludera eller utesluta grupper med tabeller.
Använd % som jokertecken för att definiera urvalskriterier för scheman och tabeller.
-
%.% definierar alla tabeller i alla scheman.
-
Public.% definierar alla tabeller i schemat Public.
I Urvalskriterier får du en förhandsgranskning baserat på ditt urval.
Nu kan du göra något av följande:
-
Skapa en regel för att inkludera eller utesluta en grupp med tabeller baserat på urvalskriterierna.
Klicka på Lägg till regel från urvalskriterier för att skapa en regel och välj antingen Inkludera eller Uteslut.
Du kan se regeln under Urvalsregler.
-
Välj en eller flera datauppsättningar och klicka på Lägg till valda datauppsättningar.
Du kan se de tillagda datauppsättningarna under Uttryckligen valda datauppsättningar.
Urvalsreglerna gäller bara för den aktuella uppsättningen med tabeller och vyer, inte för tabeller och vyer som läggs till i framtiden.
Uppdaterar metadata
Du kan uppdatera metadata i uppgiften så att den stämmer med ändringar i metadata i källan i Designvyn för en uppgift. För SaaS-program som använder Metadata manager måste Metadata manager uppdateras innan du kan uppdatera metadata i datauppgiften.
-
Du kan göra något av följande:
-
Klicka på ... och sedan på Uppdatera metadata för att uppdatera metadata för alla datauppsättningar i uppgiften.
-
Klicka på ... på en datauppsättning i Datauppsättningar och sedan på Uppdatera metadata för att uppdatera metadata för en enstaka datauppsättning.
Du kan visa status för uppdateringen av metadata under Uppdatera metadata i den nedre delen av skärmen. Du kan se när metadata senast uppdaterades genom att hovra över .
-
-
Förbered datauppgiften för att tillämpa ändringarna.
När du har förberett datauppgiften och ändringarna har tillämpats tas ändringarna bort från Uppdatera metadata.
Du måste förbereda lagringsåtgärder som använder den här åtgärden för att sprida ändringarna.
Om en kolumn tas bort läggs en transformation med Null-värden till för att säkerställa att lagringen inte förlorar historiska data.
Begränsningar för uppdatering av metadata
-
Ett namnbyte med en borttagen kolumn före det, i samma tidsfönster, kommer att översättas till namnbytet med den borttagna kolumnen om de är av samma datatyp och har samma datalängd.
Exempel:
Före: a b c d
Efter: a c1 d
I det här exemplet togs b bort och c bytte namn till c1 och b och c är av samma datatyp och har samma datalängd.
Detta kommer att identifieras som ett namnbyte för b till c1 och en borttagning av c.
-
Namnbytet för den sista kolumnen identifieras inte, även om den sista kolumnen togs bort, och den omedelbart före bytte namn.
Exempel:
Före: a b c d
Efter: a b c1
I det här exemplet togs d bort och c bytte namn till c1.
Detta kommer att identifieras som att c och d har tagits bort och att c1 har lagts till.
-
Nya kolumner förutsätts läggas till på slutet. Om kolumner läggs till i mitten med samma datatyp som nästa kolumn kan de tolkas som att de har tagits bort och bytt namn.
Registrerade datainställningar
Du kan ställa in egenskaper för den registrerade dataarbetsuppgiften.
-
Klicka på Settings.
Allmänna inställningar
-
Databas
Databas som ska användas i målet.
-
Uppgiftsschema
Du kan byta namn på schemat för datauppgiften.
- Prefix för alla tabeller och vyer
Du kan ange prefix för alla tabeller och vyer som skapas av uppgiften.
Anteckning om informationDu måste använda ett unikt prefix om du vill använda ett databasschema i flera datauppgifter.
Uppdateringsmetod
Identifiering av förändring
-
Använd Jämför med aktuell lagringsplats när data bara har lästs in en gång, eller om den uppdateras med fullständiga inläsningar.
-
Använd Inkrementell med hög vattenstämpel för att bearbeta dataändringar stegvis med metoden för hög vattenstämpel.
För det här alternativet måste alla tabeller ha en definierad primärnyckel. Du kan definiera en primärnyckel manuellt i Datauppsättningsvyn för tabeller som saknar en primärnyckel.
Inkrementella laddningsinställningar
Dessa inställningar är tillgängliga när Inkrementell med hjälp av högvattenmärke har valts.
-
Om data replikeras av en Qlik Replicate-uppgift med ändringar för fullständig laddning och lagring ställer du in Inställningar för inkrementell inläsning till Qlik Replicateinställningar.
-
Om data replikeras av en Stitch-datapipeline och dina källtabeller har en primärnyckel definierad ställer du in Inkrementella laddningsinställningar på Standardinställningar för Stitch.
-
Annars ställer du in Inställningar för inkrementell inläsning till Anpassad och definierar inställningarna själv.
Inställning | Anpassad | Qlik Replicate-inställningar | Standardinställningar för Stitch |
---|---|---|---|
Ändra tabeller |
Om ändringarna finns i samma tabell, väljer du Ändringar finns i samma tabell. Om inte, avmarkerar du Ändringar finns i samma tabell och anger ett ändringstabellmönster i Ändra tabellmönster. |
${SOURCE_TABLE_NAME}__ct table | Ändringarna är i samma tabell |
Vattenmärkeskolumn | Ställ in namnet på vattenmärkeskolumnen i Namn. | header__change_seq | _SDC_BATCHED_AT |
Kolumnen "Från datum" |
Du kan ange "Från-datum" utifrån batchens starttid eller med en vald kolumn. Om du väljer Valde kolumnen "Från-datum" måste du definiera ett "Från-datum"-mönster. |
header__timestamp | _SDC_BATCHED_AT
Du kan ändra detta så att det anger "Från-datum" utifrån batchens starttid eller genom att välja en annan kolumn. |
Mjuka borttagningar |
Du kan inkludera mjuka borttagningar i ändringar genom att välja Ändringar inkluderar mjuka borttagningar och definiera ett indikationsuttryck. Indikationsuttrycket bör utvärderas till True om ändringen är en mjuk borttagning. Exempel: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Du kan inkludera mjuka borttagningar i ändringar genom att välja Ändringar inkluderar mjuka borttagningar och definiera ett indikationsuttryck. Indikationsuttrycket bör utvärderas till True om ändringen är en mjuk borttagning. Exempel: ${is_deleted} = 1 |
Före bild |
Du kan filtrera bort innan bildposter i ändringstabeller ändras genom att välja Före bild och definiera ett indikationsuttryck. Indikationsuttrycket bör utvärderas till True om raden innehåller bilden före uppdateringen. Exempel: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Det finns inga innan-bildposter i data. |
Kataloginställningar
-
Publicera i katalogen
Välj det här alternativet för att publicera den här versionen av data till Katalogen som en datauppsättning. Kataloginnehållet kommer att uppdateras nästa gång du förbereder den här uppgiften.
Mer information om Katalog finns i Förstå data med hjälp av katalogverktyg.
Rekommenderad konfiguration av Qlik Replicate
De här Qlik Replicate-uppgiftsinställningarna rekommenderas vid registrering av data som replikeras med en Qlik Replicate-uppgift som lagrar ändringar.
-
Qlik Replicate-uppgiften bör konfigureras med alternativen Fullständig laddning och Lagra ändringar.
-
I Store Changes Settings > Change Tables kontrollerar du att följande ändringstabellkolumner finns med under sina standardnamn:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
I Store Changes Settings > Change Tables ställer du in On UPDATE till Store after image only.
Detta innebär att utrymmet för varje uppdatering reduceras eftersom före-bilden inte ingår. Använd det här alternativet om du inte kommer att använda före-bilden.
-
I Store Changes Settings > Change Tables ställer du in Suffix till standardvärdet __ct.
-
Tillämpa inte följande globala omvandlingar:
-
Rename Change Table (Byt namn på ändringstabell)
-
Rename Change Table schema (Byt namn på schema för ändringstabell)
-
-
Om en primärnyckel i en källtabell kan uppdateras aktiverar du DELETE och INSERT när du uppdaterar ett alternativ för primärnyckelkolumn i Change Processing Tuning.
Historiken för den gamla posten kommer inte att bevaras i den nya posten.
Anteckning om informationDet här alternativet stöds från Qlik Replicate november 2022.
Åtgärder för den registrerade datauppgiften
Du kan utföra följande åtgärder på en registrerad datauppgift på uppgiftsmenyn.
-
Öppna
Det här öppnar datauppgiften. Du kan se tabellstrukturen och information om dataarbetsuppgiften.
-
Redigera
Du kan redigera arbetsuppgiftens namn och beskrivning och lägga till taggar.
-
Ta bort
Du kan radera dataarbetsuppgiften.
Källdata tas inte bort.
- Synkronisera datauppsättningar
Detta synkroniserar utformningsändringar som inte kan justeras automatiskt.
-
Återskapa tabeller
Detta återskapar datauppsättningarna från källan.
-
Lagra data
Du kan skapa en lagringsdatauppgift som använder data från denna datauppgift för mellanlagring.
Historiköverväganden när en "Från datum"-kolumn ställs in
Om historiska data har aktiverats i en uppgift nedströms och du använder en "Från datum"-kolumn stöds inte antedatering. Detta innebär att om en ändringsbatch innehåller en äldre version av en post som inte finns i lagret måste ändringen också omfatta alla nyare versionen av posten. Om de nyare versionerna inte inkluderas tas de bort.
I de här exemplen innehåller lagret följande poster från start:
Från datum | Namn | Ort |
---|---|---|
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | London |
Exempel 1:
Om du sätter in följande ändringsbatch:
Från datum | Namn | Ort |
---|---|---|
4/Oct/2023 | Joe | Paris |
Blir resultatet i lagret, som förväntat:
Från datum | Namn | Ort |
---|---|---|
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | London |
4/okt/2023 | Joe | Paris |
Exempel 2:
Men om du sätter in följande äldre post i en ändringsbatch:
Från datum | Namn | Ort |
---|---|---|
1/okt/2023 | Joe | Berlin |
Leder det till att de nyare posterna tas bort i lagret:
Från datum | Namn | Ort |
---|---|---|
1/okt/2023 | Joe | Berlin |
Exempel 3:
För att bevara historiken måste ändringsbatchen inkludera de nyare posterna:
Från datum | Namn | Ort |
---|---|---|
1/okt/2023 | Joe | Berlin |
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | London |
På så sätt säkerställs att historiken bibehålls även i lagret:
Från datum | Namn | Ort |
---|---|---|
1/okt/2023 | Joe | Berlin |
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | London |
Överväganden
-
Använd inte alternativet för historik i Stitch-replikeringen. Använd alternativen för att behålla historiska data i Qlik Talend Data Integration.
Överväganden om datakapacitet
-
Om en registrerad tabell inte har någon primärnyckel kommer en fullständig omladdning att utföras vid varje körning. Detta kommer att räknas in i din kvot för registrerad datakapacitet per månad. Detta beror på att lagringen måste jämföra alla poster för att hitta ändringar.
-
Datakapaciteten för registrerade data räknas i lagringen. Detta innebär att en radering i registrerade data omvandlas till en infogning eller uppdatering av lagringen (en mjuk radering) och räknas in i datakapaciteten.
-
Mjuka raderingar, infogningar och uppdateringar räknas in två gånger i datakapaciteten om en tabell från registrerade data används i två lagringsdatauppgifter.