Перейти к основному содержимому Перейти к дополнительному содержимому

Учебное пособие ― Работа с потоком данных для начинающих

В этом учебном пособии описывается базовый сценарий подготовки данных и объясняются различные шаги, необходимые для построения потока данных, и предоставляемые возможности. С помощью прилагаемого пакета, содержащего несколько наборов данных, можно воспроизвести все действия, описанные в данном руководстве.

В этом сценарии используется выборка данных о продажах клиентам во всем мире с информацией об их именах, датах и состоянии заказов, стране происхождения, штатах, адресах, номерах телефонов и т. д. Допустим, требуется подготовить данные таким образом, чтобы сосредоточится на покупателях из США. Мы изолируем все данные о покупателях из США, добавим недостающую информацию о штатах происхождения, внесем небольшие изменения в форматирование и выполним экспорт данных в новый файл, который можно будет использовать в качестве источника данных, например, для аналитического приложения.

Предварительные требования

Загрузите этот пакет и распакуйте его на рабочем столе:

Руководство «Работа с потоком данных для начинающих»

Пакет содержит следующие файлы данных, которые потребуются для изучения данного учебного пособия.

  • sales_data_sample.xlsx

  • states.xlsx

Добавление исходных файлов в каталог

Прежде чем приступить к созданию потока данных, необходимо сделать доступными два файла из пакета в аналитической платформе. Чтобы добавить источник данных в каталог, выполните следующие действия.

  1. В меню средства запуска выберите Аналитика > Каталог.

  2. Нажмите кнопку Добавить в правом верхнем углу и выберите Набор данных;

  3. В открывшемся окне щелкните Загрузить файл данных.

  4. Перетащите файлы учебного пособия с рабочего стола в специальную область окна Добавить файл или нажмите кнопку Обзор, чтобы выбрать их из папки.

  5. Нажмите Загрузить.

Создание потока данных и добавление источника

Теперь, когда все подготовлено, можно приступать к созданию потока данных, начиная с источника.

  1. В меню средства запуска выберите Аналитика > Подготовка данных.

  2. Щелкните плитку Поток данных или выберите Создать > Поток данных.

  3. В окне Создание нового потока данных настройте следующую информацию о потоке данных и нажмите кнопку Создать:

    • Учебное пособие по потоку данных в поле Имя.

    • Личное в поле Пространство.

    • Поток данных для подготовки данных о продажах покупателям из США в поле Описание.

    • Учебное пособие в поле Тег.

    Открывается пустой поток данных.

    Пустой холст для вновь созданного потока данных

  4. Щелкните Найти в каталоге на пустом холсте, чтобы начать просматривать наборы данных, добавленные в каталог.

  5. Выполните поиск с применением фильтра, чтобы найти ранее загруженные наборы данных sales_data_sample.xlsx и states.xlsx, и установите флажки перед их именами.

  6. Щелкните Далее.

  7. Просмотрите наборы данных и их поля в сводке, затем нажмите Загрузить в поток данных.

    Оба исходных набора данных добавлены на холст, и можно приступать к подготовке данных с помощью процессоров. sales_data_sample.xlsx ― это основной набор данных, с которым мы будем работать, а states.xlsx будет использоваться в качестве дополнительных данных.

    Два исходных набора данных для начала построения потока данных

Фильтрация данных по клиентам из США

Теперь можно начинать подготовку данных путем последовательного изменения с помощью процессоров. Первый шаг ― уменьшить область набора данных и сосредоточиться только на покупателях из США. Для этого используйте процессор Filter (Фильтр), чтобы выбрать только те строки, которые содержат значение USA (США) в поле COUNTRY (СТРАНА).

  1. Щелкните меню действий (Значок «Вертикальное троеточие») источника sales_data_sample на холсте.

  2. В открывшемся меню выберите Добавить процессор > Фильтр.

    Меню выбора процессора для добавления процессора Filter (Фильтр)

    Процессор Filter (Фильтр) помещается на холст и автоматически подключается к источнику.

    Примечание к информацииТакже можно вручную перетащить процессоры с левой панели Процессоры и вручную подключить узлы.
  3. Если панель свойств процессора еще не открыта, щелкните Свойства в правом верхнем углу холста, чтобы настроить процессоры и взглянуть на предварительный просмотр данных и скрипт.

  4. На панели свойств щелкните значок Изменить (Изменить) рядом с именем процессора, чтобы дать ему более информативное имя, например Фильтр США, и добавить краткое описание, например Фильтрация по клиентам из США.

  5. В раскрывающемся списке Поле для обработки выберите COUNTRY (Страна).

  6. В раскрывающемся списке Оператор выберите =.

  7. В поле Использовать с выберите Значение и введите USA (США).

  8. В списке Выберите строки, которые соответствуют, выберите Все фильтры.

    Эти параметры более полезны при комбинировании нескольких фильтров.

  9. Нажмите Применить.

    Конфигурация процессора настроена правильно, но все еще отображается сообщение Не подключено, потому что у процессора пока нет выходного потока.

  10. Щелкните Предварительный просмотр данных на нижней панели.

    Взглянув на предварительный просмотр, можно увидеть, что на этом этапе остались только строки со страной USA (США) и они будут переданы в выходной поток. На данный момент поток данных должен выглядеть следующим образом:

    Поток данных с настроенным процессором Filter (Фильтр)

Добавление названий штатов из другого набора данных

В случае с оставшимися клиентами из США поле STATE (ШТАТ) содержит штат происхождения, но в виде двухбуквенного кода. Лучше сделать эту информацию более удобной для чтения, в идеале ― с полным названием штата.

Набор данных states.xlsx, ранее импортированный в качестве источника, содержит список всех штатов США с двухбуквенными кодами, а также соответствующими полными названиями. Необходимо выполнить соединение этих двух наборов данных, чтобы извлечь названия штатов и дополнить основной поток.

Справочный набор данных с названиями штатов

Примечание к информацииДва набора данных должны иметь хотя бы одно общее поле, чтобы их можно было соединить.

Для соединения выполните следующие действия.

  1. Щелкните меню действий (Значок «Вертикальное троеточие») процессора Filter (Фильтр) и выберите Добавить процессор в соответствующую ветку > Соединить.

  2. Присвойте процессору новое имя Полные названия штатов, щелкнув значок Изменить (Изменить) на панели свойств.

  3. Подключите источник states к нижней точке привязки процессора Join (Соединить). Чтобы создать ссылку, щелкните точку справа от узла источника и, удерживая, перетащите ссылку на нижнюю точку слева от узла процессора.

    Два входных потока, поступающие в процессор Join (Соединить)

  4. В раскрывающемся списке Тип соединения выберите Левое внешнее соединение.

  5. В раскрывающемся списке Левый ключ выберите поле STATE (ШТАТ).

  6. В раскрывающемся списке Правый ключ выберите поле Abbreviation (Сокращение).

    Два выделенных столбца содержат общую информацию и позволяют установить связь между двумя входными потоками. При левом внешнем соединении в основной поток добавляются только дополнительные поля из второго набора данных.

  7. Нажмите Применить.

    Конфигурация процессора Join (Соединить) для извлечения имен штатов

    В конец набора данных добавлено новое поле State (Штат), содержащее полное название штата для каждого покупателя.

Переименование и перемещение полей

Сейчас существует несколько проблем с именованием и форматированием столбцов. Имена STATE (ШТАТ) и State (Штат) слишком похожи и сбивают с толку, и два поля находятся слишком далеко друг от друга. Чтобы улучшить согласованность и единообразие данных, можно использовать процессор Select fields (Выбрать поля) для переименования и перемещения полей.

  1. Щелкните меню действий (Значок «Вертикальное троеточие») процессора Join (Соединить) и выберите Добавить процессор > Выбрать поля.

  2. Подключите процессор Join (Соединить) к процессору Select fields (Выбрать поля).

    Процессор Select fields (Выбрать поля), добавленный после процессора Join (Соединить)

  3. Присвойте процессору новое имя Переименовать поля штатов, щелкнув значок Изменить (Изменить) на панели свойств.

  4. Наведите курсор на поля, которые нужно переименовать, и щелкните значок ИзменитьИзменить, чтобы отредактировать имена названия двух полей следующим образом:

    • STATE (ШТАТ) как STATECODE (КОД_ШТАТА)

    • State (Штат) как STATENAME (НАЗВАНИЕ_ШТАТА)

  5. Используйте значок =, чтобы перетащить новый столбец STATENAME (НАЗВАНИЕ_ШТАТА) и расположить его рядом со столбцом STATECODE (КОД_ШТАТА).

  6. Нажмите Применить.

    Поля переупорядочены, и поток данных выглядит следующим образом:

    Конфигурация процессора Select fields (Выбрать поля)

Преобразование имен клиентов в верхний регистр

Чтобы выделить фамилии клиентов и легче отличать их от имен, мы воспользуемся простой функцией форматирования процессора Strings (Строки), чтобы преобразовать фамилии в верхний регистр.

  1. Щелкните меню действий (Значок «Вертикальное троеточие») процессора Select fields (Выбрать поля) и выберите Добавить процессор > Strings (Строки).

  2. Подключите процессор Select fields (Выбрать поля) к процессору Strings (Строки).

    Добавление процессора Strings (Строки) в поток данных

  3. Присвойте процессору новое имя Верхний регистр, щелкнув значок Изменить (Изменить) на панели свойств.

  4. В раскрывающемся списке Имя функции выберите Изменить на верхний регистр.

  5. В раскрывающемся списке Поля для обработки выберите CONTACTLASTNAME (ФАМИЛИЯ_КОНТАКТА).

  6. Нажмите Применить.

    Конфигурация процессора Strings (Строки) для изменения регистра фамилий

Добавление цели и запуск потока данных

Основные этапы подготовки выполнены, и теперь можно завершить работу над потоком данных, настроив способ экспорта полученных данных. В этом сценарии мы выполним экспорт подготовленных данных в виде файла .qvd, сохраненного непосредственно в каталоге, что позволит впоследствии удобно работать с ним, например, в аналитическом приложении.

  1. Щелкните меню действий (Значок «Вертикальное многоточие») процессора Strings (Строки) и выберите Добавить цель > Файлы данных.

  2. Подключите процессор Strings (Строки) к Цели файлов данных.

    Добавление целевого узла для экспорта подготовленных данных в файл qvd

  3. Присвойте процессору новое имя Цель QVD, щелкнув значок Изменить (Изменить) на панели свойств.

  4. В раскрывающемся списке Пространство выберите Личное.

  5. В поле Имя файла введите tutorial_output (выходные_данные_учебного_пособия).

  6. В раскрывающемся списке Расширение выберите .qvd.

  7. Нажмите Применить.

    Теперь поток данных завершен и действителен, о чем свидетельствует состояние в полосе заголовка и зеленые галочки под каждым источником, процессором и целевым узлом.

    Завершенный поток данных для подготовки данных образца

  8. Нажмите кнопку Запустить поток в правом верхнем углу окна.

    Откроется модальное окно, в котором отображается ход выполнения.

    Модальное окно, в котором отображается ход выполнения

    Через некоторое время окно закроется, и появится уведомление о результате выполнения: успешно или нет. Выходные данные потока данных теперь можно найти в каталоге или в разделе Выходные данные на панели Обзор потока данных.

Дальнейшие действия

Вы научились импортировать исходные данные в каталог, строить простой поток данных для фильтрации и улучшения данных, а также экспортировать результат подготовки данных в виде готового к использованию файла.

Чтобы узнать о многочисленных способах использования потока данных в конкретных сценариях, ознакомьтесь с полным списком Процессоры потоков данных, где описаны предлагаемые функции.

Чтобы узнать, как использовать подготовленные данные в аналитических приложениях, см. раздел Создание аналитики и визуализация данных.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!