Ir para conteúdo principal Pular para conteúdo complementar

Processador Sample

Mantém apenas as primeiras linhas ou um subconjunto aleatório de linhas.

O processador Sample permite selecionar um número ou porcentagem específica de registros do seu fluxo de entrada e tornar a amostra de dados mais representativa de todo o conjunto de dados.

Uso

  • O processador Sample requer um fluxo de entrada e pode gerar apenas um fluxo de saída.

  • O uso desse processador irá desordenar os dados se um processador Sort tiver sido usado no fluxo de entrada.

Propriedades

Propriedades a configurar para selecionar um subconjunto de registros da entrada.

Configuração
Propriedade Configuração
Método de amostragem

Selecione se deseja extrair um número fixo de linhas ou uma porcentagem do total de linhas do fluxo de entrada:

  • Linhas aleatórias: mantém uma porcentagem de linhas de todo o seu conjunto de dados.

  • Primeiras linhas: mantém um número fixo de linhas a partir do início do seu conjunto de dados

  • Número fixo de linhas aleatórias: mantém um número fixo de linhas aleatoriamente de todo o seu conjunto de dados

  • Amostragem estratificada aleatória: mantém a porcentagem escolhida de linhas para cada valor do campo de estrato.

    Nota informativaDevido ao arredondamento, o uso deste método pode levar a desvios significativos do número total de linhas esperado, especialmente ao selecionar estratos pequenos. Além disso, estratos com apenas uma linha podem não estar representados nos resultados se a porcentagem de linhas a serem amostradas for baixa.
Número de linhas a serem extraídas Digite o número de linhas a serem mantidas.
Razão de amostragem (%) Digite a porcentagem de linhas a serem mantidas.
Campo de estrato Na lista suspensa, selecione o campo a ser usado como estrato.

Para renomear o processador ou editar sua descrição, aponte o mouse sobre o nome ou a descrição a ser alterada no painel Propriedades e clique no ícone Editar Editar.

Exemplo

Neste exemplo, você está trabalhando com um conjunto de dados contendo informações sobre transações de vendas de três regiões: Leste, Oeste e Central.

conjunto de dados contendo informações do cliente

Atualmente, a amostra contém 20 linhas, mas você gostaria de reduzir seu tamanho, garantindo que cada região esteja representada de forma equilibrada nos dados amostrados. Você usará o processador Sample para alterar o tamanho da amostra.

Nas propriedades do processador, selecione Amostragem estratificada aleatória como método de amostragem, defina a Taxa de amostragem (%) como 50 e selecione Região como campo de estrato.

Definir a amostragem estratificada em 50% significa que a amostra conterá aproximadamente metade das linhas de cada região após o arredondamento.

uma configuração de fluxo de dados para amostrar o conjunto de dados por região

Na saída do processador, a amostra agora contém apenas aproximadamente metade das linhas do original, mantendo a mesma distribuição de regiões.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!