Перейти к основному содержимому Перейти к дополнительному содержимому

Потоковые данные

Процесс адаптации передает данные из источника и сохраняет их в таблицах Iceberg. Изменения из потоковых источников данных постоянно применяются к таблицам хранилища почти в реальном времени.

Подключенные данные

Данные подключаются в рамках проекта конвейера, а наборы данных хранятся в местоположении S3, определенном в настройках проекта.

  1. В проекте щелкните Создать, затем Подключить данные.

  2. Добавьте Имя задачи и необязательное Описание для подключения.

    Нажмите Далее.

  3. Выберите подключение источника.

    Можно выбрать существующее подключение к источнику потоковой передачи или создать новое подключение к источнику.

    Для получения дополнительной информации см. Подключение к потокам данных

    Нажмите Далее и следуйте приведенным ниже инструкциям для вашего источника данных.

Выбор данных

Apache Kafka и Amazon Kinesis

В списке отображаются доступные разделы Kafka или потоки Kinesis с хоста, определенного в подключении к источнику.

При выборе разделов/потоков можно выбрать определенные наборы данных или использовать правила выбора для включения или исключения групп наборов данных:

  • Используйте % в качестве знака подстановки для определения критериев выбора для наборов данных.

  • %.% определяет все наборы данных во всех потоках.

Если разделы выбраны с помощью правил выбора, вы можете выбрать, загружать ли все наборы данных в одну и ту же целевую таблицу или создавать отдельную целевую таблицу для каждого исходного раздела:

  • По умолчанию имя целевой таблицы Iceberg формируется из имени раздела, отформатированное в соответствии с соглашениями об именовании, например, в нижнем регистре, с удаленными пробелами, с заменой дефисов на символы подчеркивания. В Определение имени целевого набора данных можно изменить имя целевой таблицы

  • Когда правила выбора используются для загрузки нескольких разделов в одну таблицу, необходимо указать целевое имя.

  • Когда используются правила выбора и данные загружаются в отдельные таблицы (один набор данных на раздел), целевыми именами по умолчанию являются имена разделов. На этом этапе вы не можете редактировать имена в мастере, но это можно сделать позже в задаче промежуточного хранения.

  • Если правило настроено для выбора разделов для приема, любые новые разделы, соответствующие критериям правила, также будут помещены в промежуточное хранение, если установлен флажок Новый раздел  > Добавить в цель в параметрах эволюции схемы в настройках задачи промежуточного хранения.

Выберите один или несколько наборов данных и нажмите Добавить выбранные потоки. Добавленные наборы данных отображаются в Явно выбранные потоки. Нажмите Далее.

Amazon S3

В браузере каталогов отображается список всех каталогов, расположенных в S3-блоке исходного подключения. 

  • Выберите каталоги, которые нужно включить при промежуточном хранении данных:

    • Для каждого каталога в Добавить путь введите путь и шаблон имени файла:

      • Используйте * как знак подстановки для сопоставления любого символа.

      • Чтобы ввести шаблон даты, используйте <yyyy> как заполнитель для четырехзначного года, <MM> как заполнитель для двухзначного месяца, <dd> как заполнитель для двухзначного дня и <HH> как заполнитель для двухзначного часа. Например:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • Нажмите Предварительный просмотр, чтобы открыть диалоговое окно Предварительный просмотр данных. Отображается список включенных и исключенных файлов.

  • Нажмите Проверить, чтобы проверить данные.

  • В разделе Определить имя целевого набора данных укажите имя, чтобы сопоставить раздел с целевой таблицей Iceberg. Нажмите Далее.

Выбор типа содержимого

Выберите тип содержимого событий источника.

  • Выберите тип событий, которые вы загружаете в Выберите тип событий данных.

  • Для получения дополнительной информации см. раздел Подключение к потокам данных.

    Выбранный тип содержимого применяется ко всем темам. Необходимо создать новую задачу для каждого типа содержимого, который вы хотите загрузить.

  • Разверните Проверьте правильность загрузки событий, чтобы убедиться, что данные могут быть проанализированы. Вы должны убедиться, что данные на этом этапе верны, иначе вам придется воссоздать конвейер и загрузить данные снова. Используйте Выбрать набор данных, чтобы изучить конкретные наборы данных и проверить любые предупреждения, которые могут повлиять на загрузку данных. Нажмите значок глаза рядом с любыми столбцами структуры, чтобы просмотреть данные.

  • Нажмите Далее.

Настройка свойств приема данных

Настройте параметры для вашего конвейера:

  • Прочитать данные из

    • Начать с самого раннего события: загрузить все исторические данные.

    • Начать сейчас: загружать новые данные, поступающие с момента запуска конвейера.

  • Развертка по столбцам

    • Сохранить вложенные столбцы: преобразования не применяются.

    • Развернуть в отдельные столбцы: данные разделяются на отдельные столбцы.

  • Загрузить настройки

    • Только добавление: как правило, лучший вариант для данных о событиях, поскольку они обычно имеют короткий срок жизни и не обновляются, например, Заказы.

    • Слияние: это лучше всего подходит для данных, которые обновляются со временем, например, Клиенты.

  • Разделение целевой таблицы

    Параметр разделения целевой таблицы применяется ко всем таблицам в конвейере. Вы можете переопределить это позже на уровне таблицы для индивидуального разделения.

    • Без разделения: таблицы будут созданы без разделов.

    • Разделение по дате приема событий: таблицы разбиваются на разделы по дате появления событий в системе.

  • Нажмите Далее.

Сводка

Экран сводки предоставляет визуальное отображение вашего конвейера:

  • При желании для задачи потокового промежуточного хранения и Streaming Transform можно нажать Изменить имя и описание, чтобы ввести новые значения.

  • Выберите вариант того, что должно произойти После создания конвейера.

  • После настройки всех параметров нажмите Создать, чтобы создать проект конвейера.

  • Когда проект отобразится, вы сможете подготовить и запустить каждую задачу, чтобы начать прием данных.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!