Ir para conteúdo principal Pular para conteúdo complementar

Aterrisando dados em um data lake

Você pode configurar uma tarefa Aterrisar dados no data lake para aterrisar dados para os seguintes destinos:

  • Amazon S3

    Para obter informações sobre como configurar uma conexão com o Amazon S3, consulte Amazon S3.

  • Azure Data Lake Storage

    Para obter informações sobre como configurar uma conexão com o Azure Data Lake Storage, consulte Azure Data Lake Storage.

  • Google Cloud Storage

    Para obter informações sobre como configurar uma conexão com o Google Cloud Storage, consulte Google Cloud Storage.

Nota de dicaEmbora você possa definir as configurações de Aterrisar dados no data lake da conexão de origem e de destino no assistente de configuração de tarefa, para simplificar o procedimento de configuração, é recomendável fazer isso antes de criar a tarefa.

Para obter informações sobre como configurar conexões com suas fontes de dados, consulte Estabelecendo conexões com fontes de dados

Para configurar uma tarefa de aterrisagem do data lake:

  1. Clique no botão Adicionar novo no canto superior direito e selecione Criar projeto de dados no menu suspenso.

  2. No diálogo Novo projeto de dados, faça o seguinte:

    1. Forneça um Nome para seu projeto.

    2. Selecione o Espaço no qual deseja que o projeto seja criado.
    3. Opcionalmente, forneça uma Descrição.
    4. Selecione Replicação como o Caso de uso.
    5. Opcionalmente, desmarque a caixa de seleção Abrir se desejar criar um projeto vazio sem definir nenhuma configuração.
    6. Clique em Criar.

      Ocorrerá uma das seguintes situações:

      • Se a caixa de seleção Abrir na caixa de diálogo Novo projeto de dados estiver selecionada (o padrão), o projeto será aberto.
      • Se você desmarcou a caixa de seleção Abrir na caixa de diálogo Novo projeto de dados, o projeto será adicionado à sua lista de projetos. Você pode abrir o projeto posteriormente selecionando Abrir no menu do projeto.
  3. Depois que o projeto for aberto, clique em Aterrisar dados no data lake.

    O assistente Aterrisar dados no data lake é aberto.

  4. Na guia Geral, especifique um nome e uma descrição para a tarefa de destino do data lake. Em seguida, clique em Avançar.

    Nota informativaNomes contendo caracteres de barra (/) ou barra invertida (\) não são aceitos.
  5. Na guia Selecionar conexão de origem, selecione uma conexão com os dados de origem. Opcionalmente, você pode editar as configurações de conexão selecionando Editar no menu da coluna Ações.

    Se ainda não tiver uma conexão de dados com os dados de origem, será necessário criar uma primeiro, clicando em Criar conexão no canto superior direito da guia.

    Você pode filtrar a lista de conexões usando os filtros à esquerda. As conexões podem ser filtradas de acordo com tipo de origem, gateway, espaço e proprietário. O botão Todos os filtros acima da lista de conexões mostra o número de filtros atuais. Você pode usar este botão para fechar ou abrir o painel Filtros à esquerda. Os filtros atualmente ativos também são mostrados acima da lista de conexões de dados disponíveis.

    Você também pode classificar a lista selecionando Última modificação, Última criação ou Alfabético na lista suspensa à direita. Clique na seta à direita da lista para alterar a ordem de classificação.

    Depois de selecionar uma conexão de fonte de dados, opcionalmente clique em Testar conexão no canto superior direito da guia (recomendado) e clique em Avançar.

  6. Na guia Selecionar conjuntos de dados, selecione tabelas e/ou exibições para incluir na tarefa de aterrissagem do data lake. Você também pode usar curingas e criar regras de seleção conforme descrito em Selecionando dados de um banco de dados.

    Nota informativaNomes de esquemas ou nomes de tabelas contendo caracteres de barra (/) ou barra invertida (\) não são aceitos.
  7. Na guia Selecionar conexão de destino, selecione o destino na lista de conexões disponíveis e clique em Avançar. Em termos de funcionalidade, a guia é igual à guia Selecionar conexão de origem descrita anteriormente.

  8. Na guia Configurações, altere opcionalmente as configurações a seguir e clique em Avançar.

    • Captura de dados de alterações (CDC) As tarefas de preparação de data lake começam com um carregamento total (durante o qual todas as tabelas selecionadas são preparadas). Os dados preparados então permanecem atualizados usando a tecnologia de CDC (Captura de dados de alterações).

      Nota informativaNão há suporte para a CDC (Captura de dados de alterações) de operações DDL.
    • Recarregamento: Faz um carregamento total dos dados das tabelas de origem selecionadas na plataforma de destino e cria as tabelas de destino, se necessário. O carregamento total ocorre automaticamente quando a tarefa é iniciada, mas também pode ser realizado manualmente ou agendado para ocorrer periodicamente, se necessário.

    Se você selecionar Change data capture (CDC) e seus dados também contiverem tabelas que não suportam CDC ou visualizações, dois pipelines de dados serão criados. Um pipeline com todas as tabelas compatíveis com CDC e outro pipeline com todas as outras tabelas e exibições usando a opção Recarregar.

    Selecione uma das seguintes opções, de acordo com a pasta do bucket na qual você deseja que os arquivos sejam gravados:

    • Pasta padrão: O formato de pasta padrão é <nome-do-seu-projeto>/<nome-da-sua-tarefa>
    • Pasta raiz: os arquivos serão gravados diretamente no bucket.
    • Pasta: insira o nome da pasta. A pasta será criada durante a tarefa de preparo do data lake se ainda não existir.

      Nota informativa O nome da pasta não pode incluir caracteres especiais (por exemplo, @, #,! e assim por diante).
  9. Na guia Resumo, um visual do pipeline de dados é exibido. Escolha se deseja Abrir a tarefa <nome> ou Não fazer nada. Em seguida, clique em Criar.

    Dependendo da sua escolha, a tarefa será aberta ou uma lista de projetos será exibida.

  10. Se você optar por abrir a tarefa, a guia Conjuntos de dados mostrará a estrutura e os metadados das tabelas de ativos de dados selecionadas. Isso inclui todas as tabelas listadas explicitamente, bem como as tabelas que correspondem às regras de seleção.

    Se quiser adicionar mais tabelas da fonte de dados, clique em Selecionar dados de origem.

  11. Opcionalmente, altere a configuração da tarefa conforme descrito em Configurações de aterrisagem em um data lake.

  12. Você pode realizar transformações nos conjuntos de dados, filtrar dados ou adicionar colunas.

    Para obter mais informações, consulte Gerenciando conjuntos de dados.

  13. Depois de adicionar as transformações desejadas, você pode validar os conjuntos de dados clicando em Validar conjuntos de dados. Se a validação falhar, resolva os erros antes de continuar.

    Para obter mais informações, consulte Validando e ajustando os conjuntos de dados.

  14. Quando estiver pronto, clique em Preparar para catalogar a tarefa de aterrissagem e prepará-la para execução.

  15. Quando a tarefa de dados estiver preparada, clique em Executar.

  16. A tarefa de aterrissagem do data lake deve começar agora. Você pode monitorar seu progresso na exibição Monitor. Para obter mais informações, consulte Monitorando uma tarefa de dados individual

Definindo prioridade de carregamento para conjuntos de dados

Você pode controlar a ordem de carregamento dos conjuntos de dados em sua tarefa de dados atribuindo uma prioridade de carregamento a cada conjunto de dados. Isso pode ser útil, por exemplo, se você quiser carregar conjuntos de dados menores antes de conjuntos de dados grandes.

  1. Clique em Prioridade de carregamento.

  2. Selecione uma prioridade de carregamento para cada conjunto de dados.

    A prioridade de carregamento padrão é Normal. Os conjuntos de dados serão carregados na seguinte ordem de prioridade:

    • Maior

    • Mais alta

    • Alta

    • Normal

    • Baixa

    • Mais baixa

    • Menor

    Conjuntos de dados com a mesma prioridade não são carregados em nenhuma ordem específica.

  3. Clique em OK.

Nota informativaOs conjuntos de dados de fontes de aplicativos SaaS podem conter dependências na ordem de carregamento. Considere isso ao definir a prioridade de carregamento.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!