Gegevens registreren die al op het gegevensplatform bestaan
U kunt gegevens die al in het gegevensplatform bestaan registreren om gegevens te beheren en transformeren en datamarts te maken. Hiermee kunt u gegevens gebruiken die onderdeel uitmaken van andere hulpmiddelen dan Qlik Talend Data Integration, zoals Qlik Replicate of Stitch.
Als u gegevens registreert, worden er twee gegevenstaken gemaakt.
-
Geregistreerde gegevens
Bij het registreren van gegevens worden weergaven gemaakt om de gegevens voor te bereiden op het maakproces van gegevensverzamelingen.
-
Opslag
Dit omvat het genereren en opslaan van gegevensverzamelingen op basis van de geregistreerde gegevens.
Wanneer u de gegevens hebt geregistreerd, kunt u de gegenereerde gegevensverzamelingen op verschillende manieren gebruiken.
-
U kunt de gegevensverzamelingen in een analyse-app gebruiken.
-
U kunt transformaties maken.
-
U kunt een datamart maken.
Gegevens registreren
U kunt gegevens registreren die aanwezig zijn in het clouddatawarehouse dat is gedefinieerd in het project. De gegenereerde gegevensverzamelingen worden in hetzelfde clouddatawarehouse opgeslagen.
Voor meer informatie over projecten, gaat u naar Een gegevenspijplijn maken .
-
Klik in een project op Maken en vervolgens op Gegevens registreren.
-
Voeg Naam en Beschrijving toe voor de gegevenstaak.
Klik op Volgende.
-
Selecteer gegevens die u wilt registeren.
Op te nemen gegevens selecteren
Klik op Volgende.
Instellingen wordt weergegeven.
-
Selecteer hoe de gegevens worden bijgewerkt in Methode bijwerken.
Selecteer Incrementeel met hoog watermerk als de gegevens zijn gerepliceerd door Qlik Replicate of Stitch.
-
Gebruik Incrementeel met hoog watermerk om gegevenswijzigingen incrementeel te verwerken met behulp van een hoog watermerkpatroon. Dit is de aanbevolen methode als de gegevens zijn gerepliceerd door Qlik Replicate (met Wijzigingen volledig laden en opslaan ingeschakeld) of Stitch.
Ga voor meer informatie naar Bijwerkmethode.
-
Gebruik Vergelijken met huidige opslag als de gegevens slechts eenmalig zijn geladen of als deze worden bijgewerkt met volledige ladingen.
-
-
Bekijk de twee gegevenstaken die zijn gemaakt in Overzicht, en geef ze een andere naam als u dat wilt.
TipDe namen worden gebruikt bij het benoemen van databaseschema's in de opslaggegevenstaak. Aangezien een schema slechts aan één taak kan worden gekoppeld, kunt u overwegen namen te gebruiken die uniek zijn om conflicten te vermijden met gegevenstaken in andere projecten die hetzelfde gegevensplatform gebruiken. -
Selecteer als u de geregistreerde gegevenstaak wilt openen of keer terug naar het project.
Als u klaar bent, klikt u op Voltooien.
De twee gegevenstaken worden nu gemaakt. Ga als volgt te werk om gegevens te repliceren:
-
Bereid de geregistreeerde gegevenstaak voor.
Klik op Voorbereiden in de gegevenstaak.
Als artefacten zijn gemaakt, is de status van de gegevenstaak Geregistreerd.
-
Bereid de taak voor de opslag van gegevens voor en voer deze uit.
Ga voor meer informatie naar Gegevensverzamelingen opslaan.
Op te nemen gegevens selecteren
Als u gegevens selecteert die u wilt opnemen, kunt u specifieke tabellen of weergaven selecteren, of selectieregels gebruiken om groepen tabellen op te nemen of uit te sluiten.
Gebruik % als jokerteken om selectiecriteria te definiëren voor schema's en tabellen.
-
%.% definieert alle tabellen in alle schema's.
-
Public.% definieert alle tabellen in het schema Openbaar.
Selectiecriteria geeft een voorbeeld op basis van uw selecties.
U kunt nu kiezen tussen:
-
Een regel maken om een groep tabellen op te nemen of uit te sluiten op basis van de selectiecriteria.
Klik op Regel van selectiecriteria toevoegen om een regel te maken en selecteer Opnemen of Uitsluiten.
U kunt de regel bekijken onder Selectieregels.
-
Selecteer een of meer gegevensverzamelingen en klik op Geselecteerde gegevensverzamelingen toevoegen.
U kunt de toegevoegde gegevensverzamelingen bekijken onder Expliciet geselecteerde gegevensverzamelingen.
Selectieregels gelden alleen voor de huidige set tabellen en weergaven, niet voor tabellen en weergaven die in de toekomst worden toegevoegd.
Metagegevens worden vernieuwd
U kunt de metagegevens in de taak vernieuwen om ze af te stemmen met wijzigingen in de metagegevens van de bron in de ontwerpweergave van een taak. In het geval van SaaS-applicaties die de Metadata Manager gebruiken moet de Metadata Manager worden vernieuwd voordat u de metagegevens in de gegeventaak kunt vernieuwen.
-
U kunt ofwel:
-
Klik op ... en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor alle gegevensverzamelingen in de taak.
-
Klik op ... van een gegevensverzameling in Gegevensverzamelingen en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor een afzonderlijke gegevensverzameling.
U kunt de status van de vernieuwing van metagegevens bekijken onder Metagegevens vernieuwen in het onderste deel van het scherm. Ga met de muiscursor op staan om te zien wanneer de metagegegevens voor het laatst zijn vernieuwd.
-
-
Bereid de gegeventaak voor om de wijzigingen toe te passen.
Als u de gegevenstaak hebt voorbereid en de wijzigingen zijn toegepast, worden de wijzigingen verwijderd van Metagegevens vernieuwen.
U moet opslagtaken voorbereiden die deze taak gebruiken om de wijzigingen door te geven.
Als er een kolom wordt verwijderd, wordt er een transformatie met null-waarden toegevoegd om ervoor te zorgen dat de opslag geen historische gegevens verliest.
Beperkingen voor het vernieuwen van metagegevens
-
Een hernoeming met daarvoor een verwijderde kolom, in hetzelfde tijdslot, wordt vertaald naar de hernoeming van de verwijderde kolom als ze hetzelfde gegevenstype en dezelfde gegevenslengte hebben.
Voorbeeld:
Vóór: a b c d
Na: a c1 d
In dit voorbeeld is b verwijderd en is c hernoemd naar c1, en hebben b en c hetzelfde gegevenstype en dezelfde gegevenslengte.
Dit wordt geïdentificeerd als een hernoeming van b in c1 en een verwijdering van c.
-
De hernoeming van de laatste kolom is niet herkend, zelfs als de laatste kolom is verwijderd en de kolom ervoor is hernoemd.
Voorbeeld:
Vóór: a b c d
Na: a b c1
In dit voorbeeld is d verwijderd en is c hernoemd naar c1.
Dit wordt geïdentificeerd als een verwijdering van c en d en een toevoeging van c1.
-
Er wordt vanuit gegaan dat er aan het einde nieuwe kolommen worden toegevoegd. Als er in midden kolommen worden toegevoegd met hetzelfde gegevenstype als de volgende kolom, worden ze mogelijk geïnterpreteerd als een verwijdering en een hernoeming.
Geregistreerde gegevensinstellingen
U kunt eigenschappen instellen voor de geregistreerde gegevenstaak.
-
Klik op Instellingen.
Algemene instellingen
-
Database
Database voor gebruik in het doel.
-
Taakschema
U kunt de naam wijzigen van het schema van de gegevenstaak.
- Prefix voor alle tabellen en weergaven
U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.
InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken.
Bijwerkmethode
Detectie van wijziging
-
Gebruik Vergelijken met huidige opslag als de gegevens slechts eenmalig zijn geladen of als deze worden bijgewerkt met volledige ladingen.
-
Gebruik Incrementeel met behulp van hoog watermerk om gegevenswijzigingen incrementeel te verwerken met behulp van de methode hoog watermerk.
Voor deze optie is vereist dat voor alle tabellen een primaire sleutel is gedefinieerd. U kunt een primaire sleutel handmatig definieren in de weergave Gegevensverzamelingen voor tabellen waarbij een primaire sleutel ontbreekt.
Incrementele laadinstellingen
Deze instellingen zijn beschikbaar wanneer Incrementeel met behulp van hoog watermerk is geselecteerd.
-
Als de gegevens worden gerepliceerd door een Qlik Replicate-taak met Volledige lading en opslagwijzigingen, stelt u Incrementele laadinstellingen in op Qlik Replicate-standaardinstellingen.
-
Stel Incrementele laadinstellingen in op Standaardinstellingen Stitch als de gegevens worden gerepliceerd door een Stitch-gegevenspijplijn en er voor uw brontabellen een primaire sleutel is gedefinieerd.
-
Anders stelt u Incrementele laadinstellingen in op Aangepast en definieert u de instellingen zelf.
Instelling | Aangepast | Instellingen Qlik Replicate | Standaardinstellingen Stitch |
---|---|---|---|
Wijzigingstabellen |
Als de wijzigingen in dezelfde tabel staan, selecteert u Wijzigingen staan in dezelfde tabel. Als dat niet het geval is, schakelt u de selectie van Wijzigingen staan in dezelfde tabel uit en geeft u een wijzigingstabelpatroon op in Wijzigingstabelpatroon. |
${SOURCE_TABLE_NAME}__ct table | Wijzigingen zijn in dezelfde tabel |
Watermerkkolom | Stel de naam van de watermerkkolom in Naam in. | header__change_seq | _SDC_BATCHED_AT |
Van datum-kolom |
U kunt de 'Van datum' aangeven aan de hand van de starttijd van de batch of met behulp van een geselecteerde kolom. Als u Geselecteerde Van datum-kolom selecteert, moet u een Van datum-patroon definiëren. |
header__timestamp | _SDC_BATCHED_AT
U kunt dit wijzigen om de 'Van datum' aan te geven aan de hand van de starttijd van de batch of door een andere kolom te selecteren. |
Soft deletions |
U kunt soft deletions in wijzigingen opnemen door Wijzigingen bevatten soft deletions te selecteren en een indicatie-expressie te definiëren. De indicatie-expressie moet evalueren naar Waar als de wijziging een soft deletion is. Voorbeeld: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
U kunt soft deletions in wijzigingen opnemen door Wijzigingen bevatten soft deletions te selecteren en een indicatie-expressie te definiëren. De indicatie-expressie moet evalueren naar Waar als de wijziging een soft deletion is. Voorbeeld: ${is_deleted} = 1 |
Voor-afbeelding |
U kunt de voor-afbeeldingsrecords uitfilteren in wijzigingstabellen door Voor-afbeelding te selecteren en een indicatie-expressie te definiëren. De indicatie-expressie moet evalueren naar Waar als de rij de afbeelding vóór de update bevat. Voorbeeld: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Er zijn geen voor-afbeeldingsrecords in de gegevens aanwezig. |
Catalogusinstellingen
-
Publiceren naar catalogus
Selecteer deze optie om deze versie van de gegevens als gegevensverzameling te publiceren naar Catalogus. De catalogusinhoud wordt bijgewerkt de volgende keer dat u deze taak voorbereidt.
Ga voor meer informatie over Catalogus naar Uw gegevens begrijpen met catalogushulpmiddelen.
Aanbevolen configuratie voor Qlik Replicate
Deze taakinstellingen voor Qlik Replicate worden aanbevolen als u gegevens registreert die zijn gerepliceerd met een Qlik Replicate-taak met opslagwijzigingen.
-
De Qlik Replicate-taak moet worden geconfigureerd met de opties Volledige lading en Wijzigingen opslaan.
-
In Instellingen voor opslaan van wijzigingen > Wijzigingstabellen controleert u of de kolommen voor tabelwijzigingen zijn opgenomen, met inbegrip van de standaardnamen:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
In Instellingen voor opslaan van wijzigingen > Wijzigingstabellen stelt u Na bijwerken in op Alleen nabeeld opslaan.
Dit verminder de benodigde ruimte voor elke update omdat het voorafbeeld niet wordt meegenomen. Gebruik deze optie als u het voorafbeeld niet gaat gebruiken.
-
In Instellingen voor opslaan van wijzigingen > Wijzigingstabellen stelt u Suffix in op de standaardwaarde __ct.
-
Pas de volgende algemene transformaties niet toe:
-
Wijzigingstabel hernoemen
-
Schema voor wijzigingstabel hernoemen
-
-
Als een primaire sleutel in een brontabel bijgewerkt kan worden, schakelt u DELETE en INSERT in als u een kolomoptie van een primaire sleutel bijwerkt in Verwerking van wijzigingen afstemmen.
De geschiedenis van het oude record wordt niet behouden in het nieuwe record.
InformatieDeze optie wordt ondersteund vanaf Qlik Replicate November 2022.
Bewerkingen op de geregistreerde gegevenstaak
Vanuit het taakmenu kunt u de volgende bewerkingen uitvoeren op de geregistreerde gegevenstaak.
-
Openen
Hiermee wordt de gegevenstaak geopend. U kunt de tabelstructuur en de details over de gegevenstaak bekijken.
-
Bewerken
U kunt de naam en de beschrijving van de taak bewerken en tags toevoegen.
-
Verwijderen
U kunt de gegevenstaak verwijderen.
De brongegevens worden niet verwijderd.
- Gegevensverzamelingen synchroniseren
Hiermee worden wijzigingen gesynchroniseerd die niet automatisch kunnen worden aangepast.
-
Tabellen opnieuw maken
Hiermee worden de gegevensverzamelingen opnieuw gemaakt vanuit de bron.
-
Gegevens opslaan
U kunt een opslaggegevenstaak maken die gegevens van deze tussenopslag-gegevenstaak gebruikt.
Overwegingen voor de geschiedenis bij het instellen van een Van datum-kolom
Als Historische gegevens is ingeschakeld voor een downstreamtaak en u een Van datum-kolom gebruikt, wordt antidateren niet ondersteund. Als een wijzigingsbatch een oudere versie bevat van een record dat niet in de opslag aanwezig is, moet de wijzigingsbatch ook alle nieuwere versies van het record bevatten. Als de nieuwere versies niet zijn opgenomen, worden ze verwijderd.
In deze voorbeelden bevat opslag vanaf het begin de volgende records:
Van datum | Naam | Plaats |
---|---|---|
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | Londen |
Voorbeeld 1:
Als u de volgende wijzigingsbatch invoegt:
Van datum | Naam | Plaats |
---|---|---|
4/okt/2023 | Joe | Parijs |
Het resultaat in de opslag is zoals verwacht:
Van datum | Naam | Plaats |
---|---|---|
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | Londen |
4/okt/2023 | Joe | Parijs |
Voorbeeld 2:
Maar als u het volgende oudere record in een wijzigingsbatch invoegt:
Van datum | Naam | Plaats |
---|---|---|
1/okt/2023 | Joe | Berlijn |
Dit leidt ertoe dat de nieuwere records in de opslag worden verwijderd:
Van datum | Naam | Plaats |
---|---|---|
1/okt/2023 | Joe | Berlijn |
Voorbeeld 3:
Als u de geschiedenis wilt behouden, moet de wijzigingsbatch de nieuwere records bevatten:
Van datum | Naam | Plaats |
---|---|---|
1/okt/2023 | Joe | Berlijn |
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | Londen |
Dit zorgt ervoor dat de geschiedenis ook in de opslag wordt behouden:
Van datum | Naam | Plaats |
---|---|---|
1/okt/2023 | Joe | Berlijn |
2/okt/2023 | Joe | New York |
3/okt/2023 | Joe | Londen |
Overwegingen
-
Gebruik de geschiedenisoptie niet in de Stitch-replicatie. Gebruik de opties om historische gegevens te behouden in Qlik Talend Data Integration.
Overwegingen met betrekking tot de gegevenscapaciteit
-
Als een geregistreerde tabel geen primaire sleutel heeft, wordt er voor iedere uitvoer volledig opnieuw geladen. Dit wordt meegerekend in uw maandelijks geregistreerde gegevenscapaciteitsquota. De reden hiervoor is dat de opslag alle records moet vergelijken om wijzigingen te vinden.
-
Opslagcapaciteit voor geregistreerde gegevens wordt geteld in de opslag. Dit betekent dat een verwijdering in de geregistreerde gegevens wordt vertaald in een invoeging in of update van de opslag (of een soft delete), en wordt gerekend in de gegevenscapaciteit.
-
Soft deletes, invoegingen en updates worden twee keer gerekend in de gegevenscapaciteit als een tabel uit geregistreerde gegevens wordt gebruikt in twee opslaggegevenstaken.