Gå till huvudinnehåll Gå till ytterligare innehåll

Urvalsprocessor

Behåller endast de första raderna eller en slumpmässig delmängd av rader.

Urvals-processorn låter dig välja ett specifikt antal eller en procentandel av poster från ditt inmatningsflöde och göra dataurvalet mer representativt för hela datamängden.

Användning

  • Urvals-processorn kräver ett inmatningsflöde och kan bara generera ett utmatningsflöde.

  • Att använda denna processor kommer att avsortera data om en Sorterings-processor användes i inmatningsflödet.

Egenskaper

Egenskaper att konfigurera för att välja en delmängd av poster från inmatningen.

Konfiguration
Egenskap Konfiguration
Urvalsmetod

Välj om du vill extrahera ett fast antal rader eller en procentandel av det totala antalet rader från indataflödet:

  • Slumpmässiga rader: Behåller en procentandel av raderna från hela din datamängd.

  • Första raderna: Behåller ett fast antal rader från början av din datamängd

  • Fast antal slumpmässiga rader: Behåller ett fast antal rader slumpmässigt från hela din datamängd

  • Slumpmässigt stratifierat urval: Behåller den valda procentandelen rader för varje värde i stratifieringsfältet.

    Anteckning om informationPå grund av avrundning kan användning av denna metod leda till betydande avvikelser från det förväntade totala radantalet, särskilt vid val av små strata. Dessutom kanske strata med endast en rad inte representeras alls i utdata om procentandelen rader som ska samplas är låg.
Antal rader som ska extraheras Ange antalet rader som ska behållas.
Urvalsförhållande (%) Ange procentandelen rader som ska behållas.
Stratifikationsfält Från rullgardinslistan väljer du fältet som ska användas som stratum.

Om du vill byta namn på processorn eller redigera dess beskrivning för du musen över namnet eller beskrivningen i panelen Egenskaper och klickar på ikonen Redigera Redigera.

Exempel

I det här exemplet arbetar du med en datamängd som innehåller information om försäljningstransaktioner från tre regioner: Öst, Väst och Central.

datauppsättning som innehåller kundinformation

För närvarande innehåller urvalet 20 rader, men du vill minska dess storlek samtidigt som du säkerställer att varje region är jämnt representerad i de samplade data. Du kommer att använda processorn Sample för att ändra storleken på urvalet.

I processorns egenskaper väljer du Slumpmässig stratifierad sampling som samplingsmetod, ställer in Samplingsförhållande (%) till 50 och väljer Region som stratumfält.

Att ställa in den stratifierade samplingen till 50 % innebär att urvalet kommer att innehålla ungefär hälften av raderna från varje region efter avrundning.

en dataflödeskonfiguration för att sampla datamängden efter region

I processorns utdata innehåller urvalet nu endast ungefär hälften av raderna från originalet, samtidigt som samma fördelning av regioner bibehålls.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!