Создание витрин данных и управление ими
После загрузки данных можно создавать витрины данных, используя данные из задач Хранение или Преобразование . Можно создать любое количество витрин данных в зависимости от потребностей бизнеса. В идеале витрины данных должны содержать репозитории сводных данных, собранных для анализа по определенному разделу или подразделению организации, например, по отделу продаж.
Помимо хранения таблиц в хранилище данных, их также можно хранить в виде таблиц Iceberg, которые управляются платформой данных. В настоящее время эта возможность доступна только для проектов Snowflake. Это возможно, если выбрать таблицы Iceberg, управляемые Snowflake, в разделе Тип таблицы в параметрах задачи.
Предварительные требования
В качестве источника для витрины данных можно использовать задачи данных следующих типов:
-
Хранение
-
Преобразование
Перед созданием витрины данных необходимо выполнить следующие действия в исходных задачах данных:
- Заполнить наборы данных данными, которые планируется использовать в витрине данных. Для получения дополнительной информации см. Ввод данных в хранилище данных.
-
Создать реляционную модель набора данных для определения связей между исходными наборами данных. Для получения дополнительной информации см. Создание модели данных.
Примечание к предупреждениюВсе исходные наборы данных должны иметь ключи.
Создание витрины данных
Чтобы создать витрину данных:
-
Откройте проект.
-
Выполните одно из следующих действий:
- Нажмите Создать в правом верхнем углу и выберите Создать витрину данных.
-
В исходной задаче данных нажмите
в правом нижнем углу, а затем выберите Создать витрину данных.
Откроется диалоговое окно Создать витрину данных .
-
Укажите имя для витрины данных и, при необходимости, добавьте описание.
-
Если вы хотите настроить витрину данных позже, снимите флажок Открыть и нажмите Создать. В противном случае просто нажмите Создать.
Витрина данных откроется на вкладке Витрина данных.
- Выберите исходные данные, как описано в разделе Выбор исходных данных
- Если витрина данных должна содержать измерения, добавьте измерения, как описано в разделе Добавление измерений и факта в витрину данных
- Если витрина данных должна содержать факт, добавьте факт, как описано в разделе Добавление факта
- Если витрина данных содержит как измерения, так и факт, добавьте измерения в схему «звезда», как описано в разделе Создание схемы «звезда»
- Создайте наборы данных в витрине данных и заполните их данными, как описано в разделе Заполнение витрины данных
Подробнее
Выбор исходных данных
Исходные данные выбираются из наборов данных в исходной задаче данных.
Для этого:
-
Нажмите кнопку Выбрать исходные данные в центре вкладки или нажмите кнопку Выбрать исходные данные на панели инструментов.
Откроется диалоговое окно Выбрать исходные данные.
-
В раскрывающемся списке Проекты конвейера выберите проект, из которого нужно получить исходные данные.
Можно добавить наборы данных из текущего проекта или из другого проекта. Чтобы добавить наборы данных из другого проекта:
-
У вас должна быть как минимум роль Может использовать в пространстве используемого проекта.
-
Оба проекта должны находиться на одной платформе данных.
Если выбранный проект находится под управлением версиями, можно выбрать ветвь для использования в качестве источника. Для получения дополнительной информации о межпроектных конвейерах см. Создание межпроектных конвейеров.
-
-
В раскрывающемся списке Задачи данных выберите задачу «Хранение» или задачу «Преобразование», если были созданы преобразования.
-
Оставьте значение по умолчанию % для поиска всех наборов данных или введите имя конкретного набора данных для поиска. Затем нажмите Поиск.
-
Выберите нужные наборы данных и нажмите Добавить выбранные таблицы.
-
Нажмите ОК , чтобы закрыть диалоговое окно, а затем перейдите к Добавить факт и/или Добавить измерения.
Добавление измерений и факта в витрину данных
После выбора исходных данных можно приступить к созданию витрины данных. Витрина данных может содержать набор данных фактов, наборы данных измерений или их комбинацию (где наборы данных измерений логически связаны с набором данных фактов).
Добавление измерений
Чтобы добавить измерение:
-
Нажмите кнопку Добавить измерение.
Откроется диалоговое окно Добавить измерение.
-
Доступны следующие настройки:
- Наиболее детализированный набор данных: Выберите набор данных.
- Имя: Укажите отображаемое имя для измерения. По умолчанию используется имя наиболее детализированного набора данных.
- Описание: При необходимости добавьте описание.
- Тип истории: Выберите один из следующих вариантов:
- Тип 1: Существующая запись в измерении будет обновляться при каждом обновлении соответствующей записи в хранилище.
- Тип 2: Новая запись будет добавляться в измерение при каждом обновлении соответствующей записи в хранилище.
-
Связанный набор данных для денормализации: Здесь будут доступны для выбора любые наборы данных, которые можно денормализовать в наборе данных измерения (в соответствии со связями в модели исходного ресурса данных).
Пример измерения, которое можно денормализовать
-
Нажмите ОК , чтобы сохранить настройки.
Измерение будет добавлено в список Измерения слева.
См. также Ролевые измерения.
Просмотр информации об измерении
При выборе измерения на центральной панели отображается вкладка Исходная реляционная модель. На этой вкладке показаны исходные наборы данных, консолидированные в измерении. Наборы данных, выбранные для денормализации при добавлении измерения, будут показаны как выбранные (и выделены серым цветом).
Добавление факта
Чтобы добавить факт:
-
Нажмите кнопку Добавить факт.
Откроется диалоговое окно Добавить факт.
-
Доступны следующие настройки:
- Факт: Выберите набор данных, который будет фактом. Набор данных должен определять степень детализации создаваемого факта.
- Имя: Укажите отображаемое имя для факта. По умолчанию используется имя факта.
- Описание: При необходимости добавьте описание.
- Связанные наборы данных для денормализации: Здесь будут доступны для выбора любые наборы данных, которые можно денормализовать в наборе данных фактов.
- Дополнительно
- Использовать текущие данные: Если этот параметр выбран (по умолчанию), факт не будет содержать столбец даты транзакции.
-
Выбрать дату транзакции: Чтобы найти данные в соответствии с определенной датой транзакции, выберите этот параметр, а затем выберите столбец даты. Это полезно, если схема «звезда» содержит измерения типа 2 и необходимо найти правильные данные для конкретной транзакции. Например, если у клиента несколько адресов, можно найти правильный адрес по дате заказа.
Пример варианта использования:
Розничному продавцу необходимо создать витрину данных для анализа связи между заказами и клиентами. Витрина данных должна отвечать на такие запросы, как: В каком штате США была самая высокая сумма заказов в 4 квартале 2022 года?
Если розничный продавец выберет параметр Использовать текущие данные, в расчет будет включена только самая последняя версия записи в таблице Customers .
Игнорирование даты транзакции приведет к неточным данным, как показано ниже:
Однако если розничный продавец выберет параметр Выбрать дату транзакции, заказы клиента будут связаны с правильной версией записи в таблице Customers .
Это позволит розничному продавцу точно рассчитать общую сумму заказов по штатам в 4 квартале 2022 года.
Примечание к подсказкеОбратите внимание, что дата транзакции может использоваться по-разному в каждой витрине данных в соответствии с потребностями бизнеса. Например, в одной витрине данных ее можно использовать для анализа дат заказов, а в другой — для анализа дат отгрузки.
-
Нажмите ОК , чтобы сохранить настройки.
Факт будет добавлен в список Факты слева.
Просмотр информации о факте
При выборе факта на центральной панели отображаются следующие вкладки:
- Модель схемы «звезда» (по умолчанию): Показывает графическое представление связей наборов данных в витрине данных.
-
Модель фактов: Показывает любые наборы данных, связанные с набором данных фактов. Наборы данных, выбранные для денормализации при добавлении факта, будут показаны как выбранные (и выделены серым цветом).
Факт Orders Details с денормализованным набором данных Orders
- Дата транзакции: Имя столбца транзакции, если при добавлении факта был выбран параметр Выбрать дату транзакции.
Обработка неизвестных и поздно поступающих измерений
Каждое измерение содержит строки -1 и 0, которые являются бизнес-ключом измерения (идентификатором объекта). Строка -1 зарезервирована для поздно поступающих измерений, а 0 — для неизвестных измерений.
Неизвестные измерения
«Неизвестные» — это данные, которые были недоступны при первоначальном создании измерения. Например, допустим, есть факт ORDER со столбцом SHIPPER, который является бизнес-ключом для измерения SHIPPER. Если строка факта ORDER еще не была отправлена (и, следовательно, имеет значение NULL для столбца SHIPPER), она будет связана с записью 0 (которая обозначает неизвестное значение для измерения). Когда факт ORDER позже будет обновлен значением SHIPPER (например, USPS), связанный идентификатор измерения (0) будет обновлен в свою очередь.
Поздно поступающие измерения
Поздно поступающее измерение имеет ключ, который существует в новых данных фактов, но которого еще нет в измерении. Например, если SHIPPER в факте ORDER имеет значение «NEWSHIP» для нового грузоотправителя, и этот бизнес-ключ еще не существует в измерении DIM_SHIPPER, обработка витрины данных свяжет этот факт со строкой -1. Это обозначает отсутствующий элемент измерения в таблице измерений. Когда бизнес-ключ «NEWSHIP» поступит для измерения DIM_SHIPPER, будет создана его строка измерения, а запись факта будет обновлена для согласования с ранее отсутствующим измерением.
Создание схемы «звезда»
После добавления измерений в витрину данных можно приступить к их подключению к набору данных фактов, создав таким образом схему «звезда».
Для этого:
- Выберите факт в списке Факты слева.
-
Выберите измерения для добавления из списка Рекомендуемые измерения справа.
Рекомендуемые измерения показаны соединенными с набором данных фактов пунктирной линией.
На изображении ниже некоторые измерения были добавлены ранее и поэтому соединены сплошной серой линией.
-
Нажмите Применить , чтобы добавить измерения.
Измерения будут показаны соединенными с набором данных фактов сплошной серой линией.
-
Чтобы закрыть панель Рекомендуемые измерения, нажмите
.
Заполнение витрины данных
После проектирования витрины данных можно приступить к ее заполнению.
Для этого:
-
Нажмите кнопку Подготовить на панели инструментов в правом верхнем углу.
Процесс подготовки включает создание наборов данных и представлений в витрине данных, а также обновление каталога.
За ходом выполнения можно следить в разделе Ход подготовки в нижней части экрана.
После завершения подготовки кнопка Подготовить изменится на Запустить.
-
При необходимости проверьте витрину данных, как описано в разделе Проверка и синхронизация витрины данных ниже.
-
Нажмите кнопку Запустить .
Окно переключится в представление Монитор , показывая ход загрузки и статус наборов данных в витрине данных.
Каждая исходная запись будет обработана витриной данных, даже удаленные записи. Это делается для обеспечения сохранения исторической информации.
Проверка и синхронизация витрины данных
Проверка витрины данных гарантирует, что метаданные витрины данных идентичны соответствующим метаданным в хранилище (или преобразовании, если оно определено). Проверка витрины данных также сравнивает созданные метаданные с текущим дизайном схемы «звезда». Например, если запустить проверку после добавления измерения в уже созданную витрину данных, проверка завершится ошибкой.
Чтобы проверить витрину данных:
-
Выберите Проверить наборы данных в меню
справа от кнопки Запустить или нажмите кнопку Проверить наборы данных в правом нижнем углу окна.
Появится сообщение Проверка завершена.
-
Если метаданные не синхронизированы или имеются конфликты дизайна схемы «звезда», в нижней части окна автоматически откроется панель Проверить и скорректировать с отчетом о проверке.
Пример витрины данных с конфликтом дизайна схемы «звезда»:
Пример витрины данных с ошибками проверки:
-
Чтобы устранить любые проблемы Ожидающие изменения дизайна, нажмите кнопку
в правом верхнем углу и выберите Подготовить. Если значение столбца Можно изменить без потери данных равно Да, будет выполнена операция ALTER. В противном случае таблицы витрины данных будут созданы заново.
Обратите внимание, что все Ошибки проверки необходимо устранять вручную.
Управление витринами данных
В этом разделе описаны различные параметры, доступные для управления наборами данных и витринами данных.
Уточнение фактов или измерений
На вкладке Наборы данных можно выполнять различные операции для уточнения фактов и измерений, такие как создание правил преобразования (например, замена значений столбцов) и добавление выражений на уровне столбцов. Вкладка Наборы данных расположена справа от вкладки Витрина данных :
Добавление правил
Объяснение того, как добавлять глобальные правила, см. в разделе Создание правил для преобразования наборов данных
Добавление новых столбцов
В целевой набор данных можно добавлять новые столбцы.
-
Добавление нового столбца с нуля
Нажмите + Добавить.
Укажите имя столбца и задайте выражение для определения данных столбца.
Для получения дополнительной информации см. Добавление столбцов в набор данных.
-
Добавление столбца из источника
Нажмите
рядом с Добавить и выберите Добавить столбец из источника.
Выберите столбец из исходного набора данных.
Изменение порядка столбцов
Можно изменить порядковую позицию столбца.
-
Выберите столбец.
-
Нажмите
, а затем Изменить порядок.
-
Используйте стрелки для перемещения столбца вверх или вниз.
-
Закройте Изменить порядковый номер, когда будете готовы.
Ролевые измерения
Ролевое измерение — это одно и то же измерение, используемое несколько раз в одной и той же схеме «звезда», но с разными значениями. Это часто встречается с измерениями Date и Customer. Например, схема «звезда» может иметь две сущности Date, одна из которых представляет дату заказа, а другая — дату получения.
Чтобы добавить или изменить имя роли измерения:
- Нажмите значок
в узле измерения и выберите Изменить имя измерения в этой схеме «звезда».
-
В диалоговом окне Изменить имя измерения в этой схеме «звезда» введите имя (или измените существующее имя) в поле Имя измерения в этой схеме «звезда» и нажмите ОК.
Новое имя появится под исходным именем измерения.
Дополнительные параметры управления
В следующей таблице описаны дополнительные параметры управления:
| Действие | Описание |
|---|---|
| Добавить дополнительные исходные наборы данных | См. Выбор исходных данных. |
| Добавить дополнительные факты | См. Добавление факта |
| Добавить дополнительные измерения | См. Добавление измерений и факта в витрину данных. |
| Удалить измерение | Выберите измерение на панели Измерения , а затем выберите Удалить в меню |
| Удалить факт | Выберите факт на панели Факты , а затем выберите Удалить в меню |
| Пересоздать витрину данных |
Нажмите кнопку Примечание к информацииЕсли возникли проблемы с отдельными таблицами, рекомендуется сначала попробовать перезагрузить таблицы, а не создавать их заново. Воссоздание таблиц может привести к потере исторических данных. При наличии существенных изменений необходимо также подготовить нижестоящие задачи данных, потребляющие воссозданные задачи данных, для перезагрузки данных.
|
| Остановить выполняющуюся задачу витрины данных | Нажмите кнопку Остановить в правом верхнем углу. |
| Подготовить задачу витрины данных |
Нажмите кнопку
За ходом выполнения можно следить в разделе Ход подготовки в нижней части экрана. Примечание к информацииПрежде чем приступать к подготовке задачи, остановите все задачи, которые в данный момент следуют за ней.
|
Планирование задачи витрины данных
Можно запланировать периодическое обновление задачи витрины данных. Можно установить расписание на основе времени или настроить запуск задачи после завершения выполнения задач входных данных.
Нажмите ... в задаче данных и выберите Планирование, чтобы создать расписание. Настройка планирования по умолчанию наследуется из настроек проекта. Для получения дополнительной информации о настройках по умолчанию см. Значения витрины данных по умолчанию.
Необходимо установить для параметра Планирование значение Вкл., чтобы включить расписание.
Расписания на основе времени
Можно использовать расписание на основе времени для запуска задачи независимо от того, когда обновляются различные источники ввода.
-
Выберите В определенное время в разделе Запустить задачу данных.
Можно установить ежечасное, ежедневное, еженедельное или ежемесячное расписание.
Расписания на основе событий
Можно использовать расписание на основе событий для запуска задачи после завершения выполнения задач входных данных.
-
Выберите При определенном событии в разделе Запустить задачу данных.
Можно выбрать, следует ли запускать задачу, когда любая из входных задач успешно завершена, или когда любая из выбранных входных задач успешно завершена.
Перезагрузка данных
Можно выполнить ручную перезагрузку данных. Это полезно при возникновении проблем с одной или несколькими таблицами.
-
Откройте задачу данных и выберите вкладку Монитор.
-
Выберите таблицы, которые необходимо перезагрузить.
Если измерение выбрано для перезагрузки, все факты, использующие это измерение, также будут перезагружены для сохранения целостности.
-
Нажмите Перезагрузить таблицы.
Можно отменить перезагрузку для таблиц, ожидающих перезагрузки, нажав Отменить перезагрузку. Это не повлияет на уже перезагруженные таблицы, а выполняющиеся в данный момент перезагрузки будут завершены.
Перезагрузка выполняется путем:
-
Усечения выбранных измерений и фактов.
-
Загрузки выбранных таблиц измерений из предшествующей задачи данных.
-
Загрузки таблиц фактов из предшествующей задачи данных. Это включает:
-
Явно выбранные таблицы фактов.
-
Таблицы фактов, связанные с перезагружаемым измерением.
-
Удаление задачи
Вы можете удалить задачу данных, если она не запущена и нет зависимостей от последующих задач в том же проекте.
-
В представлении проекта конвейера проекта нажмите
на задаче и выберите Удалить.
Артефакты (таблицы и виды), созданные задачей, также будут удалены, если вы не выберете их сохранение.
Просмотр информации о задаче
Нажмите на панели меню, чтобы просмотреть информацию о задаче, например:
-
Владелец
-
Пространство
-
Платформа данных
-
Идентификатор проекта
-
Идентификатор выполнения задачи данных
Настройки витрины данных
Нажмите кнопку Настройки на панели инструментов, чтобы открыть диалоговое окно Настройки: <имя-витрины-данных>.
Общие настройки
На вкладке Общие доступны следующие настройки:
- База данных: База данных, в которой будет создана витрина данных
- Схема задачи данных: Схема, в которой будут созданы наборы данных
- Внутренняя схема: Схема, в которой будут созданы внутренние наборы данных
-
Использование заглавных букв в имени схемы по умолчанию
Можно задать использование заглавных букв по умолчанию для всех имен схем. Если база данных настроена на принудительное использование заглавных букв, этот параметр не будет иметь эффекта.
- Префикс для всех таблиц и видов
Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.
Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных. -
Опубликовать в каталоге
Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.
Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.
Настройки времени выполнения
На вкладке Время выполнения доступны следующие настройки:
- Параллельное выполнение: Введите максимальное количество подключений к базе данных, которое Qlik Cloud может открыть для задачи. Значение по умолчанию — 10.
- Хранилище: Применимо только для Snowflake. Имя хранилища данных Snowflake.
Настройки типа представления
Настройки типа представления применимы только для Snowflake.
-
Стандартные представления
Используйте стандартные представления в большинстве случаев.
-
Безопасные представления Snowflake
Используйте безопасные представления Snowflake для представлений, предназначенных для обеспечения конфиденциальности данных или защиты конфиденциальной информации, например представлений, созданных для ограничения доступа к конфиденциальным данным, которые не должны быть доступны всем пользователям базовых таблиц.
Примечание к информации Безопасные представления Snowflake могут выполняться медленнее, чем стандартные представления.
Настройки типа таблицы
Эти параметры доступны только в проектах, где в качестве платформы данных используется Snowflake.
-
Тип таблицы
Можно выбрать, какой тип таблицы использовать.
-
Таблицы Snowflake
-
Таблицы Iceberg под управлением Snowflake
Необходимо задать имя по умолчанию для внешнего тома в поле Внешний том Snowflake.
-
-
Папка облачного хранилища для использования
Выберите папку, которая будет использоваться при промежуточном хранении данных в промежуточной области.
-
Папка по умолчанию
Создается папка с именем, заданным по умолчанию: <имя проекта>/<имя задачи данных>.
-
Корневая папка
Данные сохраняются в корневой папке хранилища.
-
Папка
Укажите имя используемой папки.
-
-
Синхронизировать с Snowflake Open Catalog
Включите этот параметр, чтобы позволить Snowflake Open Catalog управлять файлами в облачном хранилище файлов.
Рекомендации
-
Невозможно изменить источник для набора данных, если были добавлены факты и измерения. Если требуется гибкость, можно добавить предшествующую задачу «Преобразование» с нематериализованными представлениями, которые можно использовать для изменения источников, а также для создания модели для всех исходных задач.
Ограничения
Исходные наборы данных можно использовать с ограничениями, если:
-
они созданы преобразованием SQL или потоком преобразования
-
являются нематерилизованными
-
хранилище исторических данных (тип 2) отключено
Считается, что эти наборы данных обновляются при каждом запуске, что может повлиять на эффективность и стоимость. Эти ограничения можно обойти следующим образом:
-
Изменить исходные наборы данных на наборы, которые должны быть материализованы.
-
Использовать прямые преобразования наборов данных.
-
Создать глобальные правила, преобразующие множество наборов данных.
Отношения
-
Невозможно связать данные из двух наборов данных. Создайте задачу преобразования, в ней определите отношение в модели данных и используйте это преобразование как источник для другой задачи.
-
Если два набора данных связаны в модели данных отношением, в задании будут доступны оба набора данных, даже если выбран только один из них.