Tutorial - Fluxo de dados para iniciantes
Este tutorial apresentará um caso de uso básico de preparação de dados para que você se familiarize mais com as diferentes etapas necessárias na criação de um fluxo de dados e as diferentes possibilidades oferecidas. Com o pacote em anexo contendo alguns conjuntos de dados, você poderá reproduzir todas as etapas deste tutorial.
Esse cenário se concentrará em uma amostra de dados de vendas com clientes do mundo todo e informações sobre seus nomes, datas e status dos pedidos, país de origem, estados, endereços, números de telefone, etc. Digamos que você queira preparar os dados para que eles se concentrem em clientes dos Estados Unidos. Você isolará todos os dados sobre clientes dos EUA, adicionará informações ausentes sobre estados de origem, fará uma pequena alteração de formatação e exportará os dados para um novo arquivo que poderá usar como fonte para um aplicativo de análise, por exemplo.
Pré-requisitos
Baixe este pacote e descompacte-o em seu desktop:
Tutorial para iniciantes sobre fluxo de dados
O pacote contém os seguintes arquivos de dados que você precisa para concluir o tutorial:
-
sales_data_sample.xlsx
-
states.xlsx
Adicionando os arquivos de origem ao seu catálogo
Antes de começar a criação do fluxo de dados, os dois arquivos do pacote precisam estar disponíveis na plataforma de análise. Para adicionar os dados de origem ao seu catálogo:
-
No menu do iniciador, selecione Analytics > Catálogo.
-
Clique no botão Criar novo no canto superior direito e selecione Conjunto de dados.
-
Na janela que é aberta, clique em Carregar arquivo de dados.
-
Arraste e solte os arquivos do tutorial de sua área de trabalho na área dedicada da janela Adicionar arquivo ou clique em Procurar para selecioná-los em sua localização.
-
Clique em Carregar.
Criando o fluxo de dados e adicionando uma fonte de dados
Agora que as partes estão configuradas, você pode começar a criar o fluxo de dados, começando pela fonte.
-
No menu do iniciador, selecione Analytics > Preparar dados.
-
Clique no bloco Fluxo de dados ou em Criar novo > Fluxo de dados.
-
Na janela Criar um novo fluxo de dados, defina as informações do fluxo de dados, conforme a seguir, e clique em Criar:
-
Tutorial de fluxo de dados como Nome.
-
Pessoal como Espaço.
-
Fluxo de dados para preparar dados de vendas focados em clientes dos EUA como Descrição.
-
Tutorial como Tag.
Seu fluxo de dados vazio é aberto.
-
-
Clique em Procurar catálogo na tela vazia para começar a ver os conjuntos de dados que foram adicionados ao seu catálogo.
-
Use a pesquisa filtrada para localizar os conjuntos de dados sales_data_sample.xlsx e states.xlsx carregados anteriormente e marque as caixas de seleção antes de seus nomes.
-
Clique em Próximo.
-
Revise os conjuntos de dados e seus campos no resumo e clique em Carregar no fluxo de dados.
Ambos os conjuntos de dados de origem são adicionados à tela, e você pode começar a preparar os dados usando processadores. sales_data_sample.xlsx é o principal conjunto de dados com o qual você trabalhará, enquanto states.xlsx será usado como dados adicionais.
Filtrando dados por clientes dos EUA
Agora, você pode começar a preparar os dados com alterações sucessivas usando processadores. A primeira etapa é reduzir o escopo do conjunto de dados e concentrar-se apenas nos clientes sediados nos EUA. Para isso, use o processador Filter para selecionar apenas as linhas que têm um valor USA no campo COUNTRY.
-
Clique no menu de ação (
) da fonte sales_data_sample na tela.
-
No menu que é aberto, selecione Adicionar processador > Filter.
O processador Filter é colocado na tela, já conectado ao nó de origem.
Nota informativaTambém é possível arrastar e soltar manualmente os processadores do painel esquerdo Processadores e conectar os nós manualmente. -
Se ainda não estiver aberto, clique em Propriedades no canto superior direito da tela para abrir o painel de propriedades do processador, onde você pode configurar seus processadores e ver a visualização dos dados e o script.
-
No painel de propriedades, clique no ícone Editar (
) ao lado do nome do processador para dar a ele um nome mais significativo, como Filtro dos EUA, e uma descrição curta, como Filtrar clientes dos EUA, por exemplo.
-
Na lista suspensa Campo para processar, selecione COUNTRY.
-
Na lista suspensa Operador, selecione =.
-
No campo Usar com, selecione Valor e digite EUA.
-
Na lista Selecionar linhas correspondentes, selecione Todos os filtros.
Esses parâmetros são mais úteis ao combinar mais de um filtro.
-
Clique em Aplicar.
A configuração do processador é válida, mas a mensagem Não conectado ainda é exibida porque o processador ainda não tem um fluxo de saída.
-
Clique em Visualizar dados no painel inferior.
Observando a visualização, você pode ver que apenas as linhas com EUA como país foram mantidas nesse estágio e serão propagadas no fluxo de saída. Seu fluxo de dados até agora deve ser o seguinte:
Adicionando nomes de estados de outro conjunto de dados
No caso dos demais contêineres baseados nos EUA, o campo STATE contém o estado de origem, mas como um código de duas letras. Você gostaria de tornar essas informações mais fáceis de ler, de preferência com o nome completo do estado.
O conjunto de dados states.xlsx que você importou como fonte anteriormente contém uma referência de todos os estados dos EUA com os códigos de duas letras, bem como os nomes completos correspondentes. Você realizará uma junção entre esses dois conjuntos de dados para recuperar os nomes dos estados e complementar seu fluxo principal.
Para realizar a junção:
-
Clique no menu de ação (
) do processador Filter e selecione Adicionar processador à ramificação correspondente > Unir.
-
Renomeie o processador como Nomes de estados completos usando o ícone Editar (
) no painel de propriedades.
-
Conecte a fonte estados ao ponto de ancoragem inferior do processador Join. Para criar um link, clique no ponto à direita do nó de origem, segure e arraste o link para o ponto inferior à esquerda do nó do processador.
-
Na lista suspensa Tipo de junção, selecione Junção externa esquerda.
-
Na lista suspensa Chave esquerda, selecione o campo STATE.
-
Na lista suspensa Chave direita, selecione o campo Abreviatura.
As duas colunas selecionadas contêm as informações comuns e permitem um link entre os dois fluxos de entrada. Com uma junção externa esquerda, somente os campos adicionais do segundo conjunto de dados são adicionados ao fluxo principal.
-
Clique em Aplicar.
Um novo campo State foi adicionado ao final do conjunto de dados, com o nome completo do estado de cada cliente.
Renomeando e movendo campos
Agora há vários problemas com a nomenclatura e a formatação de suas colunas. STATE e State são muito semelhantes e confusos, e os dois campos são muito distantes. Para melhorar a consistência e a uniformidade dos seus campos, você pode usar o processador Select fields para renomear e mover campos.
-
Clique no menu de ação (
) do processador Join e selecione Adicionar processador > Select fields.
-
Conecte o processador Join ao processador Select fields.
-
Renomeie o processador como Renomear campos de estados usando o ícone Editar (
) no painel de propriedades.
-
Passe o mouse sobre os campos a serem renomeados e clique no ícone
Editar para editar os dois nomes de campos da seguinte maneira:
-
STATE como STATECODE
-
Estado como STATENAME
-
-
Use o ícone = para arrastar e soltar a nova coluna STATENAME ao lado de STATECODE.
-
Clique em Aplicar.
Você reorganizou os campos, e o fluxo de dados ficou assim:
Colocando os nomes dos clientes em letras maiúsculas
Para destacar os sobrenomes dos clientes e facilitar a diferenciação entre eles e os primeiros nomes, você usará uma função de formatação simples do processador Strings para colocar os sobrenomes em letras maiúsculas.
-
Clique no menu de ação (
) do processador Select fields e selecione Adicionar processador > Strings.
-
Conecte o processador Select fields ao processador Strings.
-
Renomeie o processador como Maiúsculas usando o ícone Editar (
) no painel de propriedades.
-
Na lista suspensa Nome da função, selecione Alterar para maiúsculas.
-
Na lista suspensa Campos para processar, selecione CONTACTLASTNAME.
-
Clique em Aplicar.
Adicionando um destino e executando o fluxo de dados
As principais etapas de preparação de dados estão concluídas, e agora você pode finalizar o fluxo de dados configurando como exportar os dados resultantes. Nesse cenário, você exportará os dados preparados como um arquivo .qvd armazenado diretamente no seu catálogo, tornando-o conveniente para uso em um aplicativo de análise posteriormente, por exemplo.
-
Clique no menu de ação (
) do processador Strings e selecione Adicionar destino > Arquivos de dados.
-
Conecte o processador Strings ao Destino de arquivos de dados.
-
Renomeie o processador como Destino QVD usando o ícone Editar (
) no painel de propriedades.
-
Na lista suspensa Espaço, selecione Pessoal.
-
No campo Nome do arquivo, digite tutorial_output.
-
Na lista suspensa Extensão, selecione .qvd.
-
Clique em Aplicar.
Seu fluxo de dados agora está completo e válido, conforme mostrado pelo status na barra de cabeçalho e pelas marcas de verificação verdes sob cada nó de origem, processador e destino.
-
Clique no botão Executar fluxo no canto superior direito da janela.
Um modal é aberto para mostrar o progresso da execução.
Após algum tempo, a janela se fecha e uma notificação é aberta para informar se a execução foi bem-sucedida ou não. A saída do fluxo de dados agora pode ser encontrada no seu catálogo ou na seção Saídas do painel Visão geral do fluxo de dados.
Novidades
Você aprendeu como importar dados de origem para seu catálogo, criar um fluxo de dados simples para filtrar e melhorar seus dados e exportar o resultado de sua preparação como um arquivo pronto para uso.
Para saber mais sobre as várias maneiras de usar o fluxo de dados em seus próprios casos de uso, você pode consultar a lista completa de Processadores de fluxo de dados e as funções que eles oferecem.
Para saber como usar seus dados preparados em aplicativos de análise, consulte Criando análises e visualizando dados.