Gå till huvudinnehåll Gå till ytterligare innehåll

Introduktion av data

Det första steget för att skapa en datapipeline i ett Qlik Talend Data Integration-projekt är att introducera data. I detta ingår att överföra data från datakällan och lagra datauppsättningar i ett läsoptimerat format. Du kan uppdatera data med kontinuerlig ändringshantering, eller använda schemalagda laddningar.

Du skapar en introduktion i en enda åtgärd, men den utförs i två steg.

  • Mellanlagring av data

    I detta ingår att kontinuerligt överföra data från den lokala datakällan till ett mellanlagringsområde med hjälp av en datauppgift för mellanlagring.

    Mellanlagra data från datakällor

    Du kan också mellanlagra data till ett datasjöhus, där data mellanlagras till molnlagring. Detta är tillgängligt för Snowflake-projekt, där målet för mellanlagring är inställt på molnlagring.

    Mellanlagring av data till ett datasjöhus.

  • Lagra datauppsättningar

    I detta ingår att avläsa den initiala laddningen med mellanlagringsdata eller inkrementella laddningar och tillämpa data i läsoptimerat format med en lagringsdatauppgift.

    Lagra datauppsättningar

När du har introducerat data kan du använda de lagrade datauppsättningarna på flera olika sätt.

  • Du kan använda datauppsättningarna i en analysapp.

  • Du kan skapa omvandlingar.

  • Du kan skapa en datamart.

video thumbnail

Introducera data

Du börjar introducera data i ett projekt. Datauppsättningarna kommer att lagras i molndatalagret som har definierats i projektet. Mer information om projekt finns i Skapa en datapipeline .

  1. I projektet klickar du på Skapa och sedan på Introducera data.

    Anteckning om tipsDu kan också klicka Mer-ikon på en befintlig källa i projektet och klicka sedan på Introducera data.
  2. Lägg till Namn och Beskrivning för introduktionen.

    Klicka på Nästa.

  3. Välj källkoppling.

    Du kan välja en befintlig källkoppling eller skapa en ny koppling till källan.

    Mer information finns i Konfigurera kopplingar till datakällor.

    Klicka på Nästa.

  4. Välj data som ska laddas.

    Mer information finns i Välja data.

    Klicka på Nästa.

    Inställningar visas. Här kan du välja uppdateringsmetod och historikinställningar.

  5. Välj vilken metod som ska användas för att uppdatera data i Uppdateringsmetod.

    • Sammanställning av ändringsdata (CDC)

      Om dina data även innehåller tabeller som inte stöder CDC eller vyer kommer två datapipelines att skapas. En pipeline med alla tabeller som stöder CDC, och en annan pipeline med alla andra tabeller och vyer som använder Ladda om och jämför.

    • Ladda och jämför

  6. Välj om du vill replikera historiken för tidigare data i tillägg till aktuell data i Historik.

    Klicka på Nästa när du är klar.

  7. Om du inte använder Data Movement gateway för att få åtkomst till din datakälla visas följande avsnitt i inställningarna:

    • Replikera data varje: Du kan schemalägga hur ofta ändringar ska hämtas från datakällan och ange en starttid och ett startdatum. Om källdatauppsättningarna stöder CDC (Change Data Capture) kommer endast ändringarna i källdata att replikeras och tillämpas på motsvarande måltabeller. Om källdatauppsättningarna inte har stöd för CDC (till exempel Vyer) kommer ändringar att tillämpas genom att ladda alla källdata till motsvarande måltabeller. Om vissa av källdatauppsättningarna stöder CDC och andra inte, skapas två separata underuppgifter: en för att ladda om de datauppsättningar som inte stöder CDC, och den andra för att registrera ändringarna i datauppsättningar som stöder CDC.

      I installationsguiden för introduktion kan du schemalägga ett timintervall. När du har slutfört introduktionsguiden kan du utforska olika alternativ för schemaläggning, enligt beskrivningen i Schemalägga uppgifter när du arbetar utan Data Movement gateway.

    Information om minsta schemaläggningsintervall beroende på typ av datakälla och prenumerationsnivå finns i Minsta tillåtna schemaläggningsintervall.

  8. Förhandsgranska de datauppgifter som skapas för att introducera data och byt namn på dem om du vill.

    Anteckning om tipsNamnen används när databasscheman namnges i lagringsdatauppgiften. Överväg att använda unika namn för att undvika konflikter med datauppgifter i andra projekt som använder samma dataplattform.
  9. Välj om du vill öppna någon av de datauppgifter som skapats, eller återgå till projektet.

    Klicka på Slutför när du är klar.

Onboarding-datauppgifterna är nu skapade. För att börja replikera data behöver du:

Välja data

Du kan välja specifika tabeller eller vyer eller använda urvalsregler för att inkludera eller utesluta grupper med tabeller.

Anteckning om informationOm det ingår vyer i urvalet finns det inte stöd för CDC.

Använd % som jokertecken för att definiera urvalskriterier för scheman och tabeller.

  • %.% definierar alla tabeller i alla scheman.

  • Public.% definierar alla tabeller i schemat Public.

I Urvalskriterier får du en förhandsgranskning baserat på ditt urval.

Nu kan du göra något av följande:

  • Skapa en regel för att inkludera eller utesluta en grupp med tabeller baserat på urvalskriterierna.

    Klicka på Lägg till regel från urvalskriterier för att skapa en regel och välj antingen Inkludera eller Uteslut.

    Du kan se regeln under Urvalsregler.

  • Välj en eller flera datauppsättningar och klicka på Lägg till valda datauppsättningar.

    Du kan se de tillagda datauppsättningarna under Uttryckligen valda datauppsättningar.

Urvalsreglerna gäller bara för den aktuella uppsättningen med tabeller och vyer, inte för tabeller och vyer som läggs till i framtiden.

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!