Ir para conteúdo principal Pular para conteúdo complementar

Dados de streaming

O processo de integração transfere dados da fonte e os armazena em tabelas do Iceberg. As alterações provenientes das fontes de dados de streaming são aplicadas continuamente às tabelas de armazenamento em tempo quase real.

Integrar dados

Os dados são integrados em um projeto de pipeline e os conjuntos de dados são armazenados na localização S3 definida nas configurações do projeto.

  1. No seu projeto, clique em Criar e depois em Integrar dados.

  2. Adicione um Nome de tarefa e uma Descrição opcional para a integração.

    Clique em Próximo.

  3. Selecione a conexão de origem.

    Você pode selecionar uma conexão de origem de streaming existente ou criar uma nova conexão com a origem.

    Para obter mais informações, consulte Conectando a fluxos de dados

    Clique em Avançar e siga as instruções abaixo para sua fonte de dados.

Selecionando dados

Apache Kafka e Amazon Kinesis

A lista exibe os tópicos Kafka ou fluxos Kinesis disponíveis do host definido na conexão de origem.

Ao selecionar seus tópicos/fluxos, você pode selecionar conjuntos de dados específicos ou usar regras de seleção para incluir ou excluir grupos de conjuntos de dados:

  • Use % como curinga para definir um critério de seleção para os conjuntos de dados.

  • %.% define todos os conjuntos de dados em todos os fluxos.

Se os tópicos forem selecionados usando regras de seleção, você pode escolher se deseja carregar todos os conjuntos de dados na mesma tabela de destino ou criar uma tabela de destino separada para cada tópico de origem:

  • Por padrão, o nome da tabela do Iceberg de destino é derivado do nome do tópico, formatado para estar em conformidade com as convenções de nomenclatura, por exemplo, minúsculas, espaços removidos, hífens substituídos por sublinhados. Em Definir nome do conjunto de dados de destino, você pode editar o nome da tabela de destino

  • Quando regras de seleção são usadas para carregar vários tópicos em uma única tabela, você deve fornecer o nome de destino.

  • Quando as regras de seleção são usadas e os dados são carregados em tabelas separadas (um conjunto de dados por tópico), os nomes de destino padrão são os nomes dos tópicos. Nesta etapa, você não pode editar os nomes no assistente, mas isso pode ser feito posteriormente na tarefa de aterrisagem.

  • Se uma regra for configurada para selecionar tópicos para ingestão, quaisquer novos tópicos que atendam aos critérios da regra também serão aterrisados se a opção Novo tópico  > Adicionar ao destino em evolução de esquema nas configurações da tarefa de aterrisagem estiver marcada.

Selecione um ou mais conjuntos de dados e clique em Adicionar fluxos selecionados. Você pode ver os conjuntos de dados adicionados em Fluxos explicitamente selecionados. Clique em Próximo.

Amazon S3

O navegador de diretórios exibe uma lista de todos os diretórios localizados no compartimento S3 da sua conexão de origem. 

  • Selecione os diretórios a serem incluídos ao aterrisar dados:

    • Para cada diretório, em Adicionar caminho, insira o caminho e o padrão de nome de arquivo:

      • Use * como um curinga para corresponder a qualquer caractere.

      • Para inserir um padrão de data, use <yyyy> como o espaço reservado para o ano de quatro dígitos, <MM> como o espaço reservado para o mês de dois dígitos, <dd> como o espaço reservado para o dia de dois dígitos e <HH> como o espaço reservado para a hora de dois dígitos. Por exemplo:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • Clique em Visualizar para abrir o diálogo Visualizar dados. Uma lista de arquivos incluídos e excluídos é exibida.

  • Clique em Validar para verificar os dados.

  • Em Definir nome do conjunto de dados de destino, forneça um nome para mapear o tópico para a tabela do Iceberg de destino. Clique em Próximo.

Selecionando o tipo de conteúdo

Escolha o tipo de conteúdo dos eventos de origem.

  • Selecione o tipo de eventos que você está ingerindo em Escolha o tipo de eventos de dados.

  • Para obter mais informações, consulte Conectando-se a fluxos de dados.

    O tipo de conteúdo selecionado aplica-se a todos os tópicos. Você deve criar uma nova tarefa para cada tipo de conteúdo que deseja ingerir.

  • Expanda Verificar se os eventos foram carregados corretamente para confirmar que os dados podem ser analisados. Você deve garantir que os dados estejam corretos nesta etapa, caso contrário, você precisará recriar o pipeline e carregar os dados novamente. Use Selecionar conjunto de dados para examinar conjuntos de dados específicos e verificar quaisquer avisos que possam afetar o carregamento dos dados. Clique no ícone de olho ao lado de quaisquer colunas de struct para visualizar os dados.

  • Clique em Próximo.

Definindo propriedades de ingestão

Defina as configurações para o seu pipeline:

  • Ler dados de

    • Começar do evento mais antigo: consuma todos os dados históricos.

    • Começar agora: consuma novos dados que chegam a partir do momento em que o pipeline é iniciado.

  • Desaninhar colunas

    • Preservar colunas aninhadas: nenhuma transformação é aplicada.

    • Desaninhamento em colunas separadas: os dados são divididos em colunas separadas.

  • Carregar configurações

    • Somente anexar: geralmente a melhor opção para dados de evento, pois geralmente têm um tempo de vida curto e não são atualizados, por exemplo, Ordens.

    • Mesclar: isso é mais adequado para dados que são atualizados ao longo do tempo, por exemplo, Clientes.

  • Partição da tabela de destino

    A opção de partição da tabela de destino aplica-se a todas as tabelas no pipeline. Você pode substituir isso mais tarde no nível da tabela para particionamento personalizado.

    • Nenhuma partição: as tabelas são criadas sem partições.

    • Particionar por data de ingestão de eventos: as tabelas serão particionadas pela data em que os eventos forem ingeridos.

  • Clique em Próximo.

Resumo

A tela de resumo fornece uma exibição visual do seu pipeline:

  • Opcionalmente, para a tarefa de aterrissagem de streaming e transformação de streaming, você pode clicar em Editar nome e descrição para fornecer novos valores.

  • Selecione a opção para o que você deseja que aconteça Depois que o pipeline for criado.

  • Quando você tiver configurado todas as configurações, clique em Criar para criar o projeto de pipeline.

  • Quando o projeto for exibido, você pode preparar e executar cada tarefa para começar a ingerir os dados.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!