Управление наборами данных
Управляйте наборами данных, содержащимися в задачах данных Промежуточное хранение, Хранилище, Преобразование, Киоск данных и Репликация, создавая преобразования, фильтруя данные и добавляя столбцы.
Наборы данных, содержащиеся в ресурсах данных, доступны в разделе Наборы данных» в виде Дизайн. Можно выбрать отображаемые столбцы с помощью инструмента «Управление столбцами» ().
Правила преобразования и явные преобразования
Приложение позволяет выполнять как глобальные, так и явные преобразования.
Правила преобразования
Можно выполнять глобальные преобразования, создавая правило преобразования, которое использует % в качестве подстановочного знака в области для применения ко всем соответствующим наборам данных.
-
Нажмите Правила и выберите Добавить правило, чтобы создать новое правило преобразования.
Для получения дополнительной информации см. раздел Создание правил для преобразования наборов данных.
Правила преобразования помечены темно-фиолетовым уголком на соответствующем атрибуте.
Явные преобразования
Явные преобразования создаются:
-
при использовании функции Изменить, чтобы изменить атрибут столбца;
-
при использовании функции Переименовать, чтобы переименовать набор данных;
-
при добавлении столбца.
Явные преобразования переопределяют глобальные преобразования и помечены светло-фиолетовым уголком на соответствующем атрибуте.
Модели набора данных
Наборы данных могут быть основаны как на источнике, так и на цели, в зависимости от типа задачи и операций в ней. Используемая модель набора данных влияет на поведение конвейера при изменении источника и на доступные операции.
-
Наборы данных на основе источника
Набор данных основан на исходных наборах данных и будет содержать только изменения в метаданных. Изменение исходных данных применяется автоматически, что может привести к изменениям во всех последующих задачах. Невозможно изменить порядок столбцов или исходный набор данных.
В следующих типах задач всегда используется модель набора данных на основе источника: промежуточное хранение, хранилище, зарегистрированные данные, репликация и промежуточное хранение в озере данных.
-
Наборы данных, основанные на цели
Набор данных основан на метаданных цели. Если столбец добавлен из источника или удален, он не будет автоматически применен к нижестоящей задаче. Также можно изменить порядок столбцов и исходный набор данных. Это означает, что задача является более автономной и позволяет контролировать последствия изменений в источнике.
Следующие типы задач могут использовать модель набора данных на основе цели: преобразование, киоск данных. В некоторых случаях модель на основе источника используется для задач преобразования, основанных на операции.
-
Если преобразование SQL или поток преобразования выполняет выбор столбца, набор данных будет основан на цели. Например, если в преобразовании SQL используется SELECT A, B, C from XYZ или в потоке преобразования применяете процессор Выбрать столбцы.
-
Если сохраняются столбцы по умолчанию, то набор данных основан на источнике. Например, если используется SELECT * from XYZ в преобразовании SQL.
-
Обновление проектов путем перехода с модели, основанной на источнике, на модель, основанную на цели
При необходимости существующие проекты обновляются до модели набора данных на основе цели. При первом открытии проекта будут предложены инструкции по процессу обновления. При импорте и экспорте проектов с разными моделями наборов данных необходимо учитывать некоторые аспекты.
-
Проект с моделью на основе источника невозможно импортировать в проект с моделью на основе цели.
Импортируйте проект с моделью на основе источника в новый проект, обновите новый проект и экспортируйте полученный проект. Теперь можно повторно импортировать этот проект в проект с моделью, основанной на цели.
-
Проект с моделью на основе цели невозможно импортировать в проект с моделью на основе источника.
Обновите проект, выбрав модель, основанную на цели, а затем импортируйте в него проект с моделью, основанной на цели.
Фильтрация набора данных
При необходимости можно отфильтровать данные для создания подмножества строк.
-
Нажмите Фильтр.
Для получения дополнительной информации см. раздел Фильтрация набора данных.
Переименование набора данных
Набор данных можно переименовать.
-
Нажмите на наборе данных и выберите Переименовать.
Добавление столбцов
При необходимости можно добавить столбцы с преобразованиями на уровне строк.
-
Нажмите Добавить столбец.
Для получения дополнительной информации см. раздел Добавление столбцов в набор данных.
Изменение столбца
Изменить свойства столбцов можно, выбрав столбец и нажав Изменить.
-
Имя
-
Ключ
Задайте столбец в качестве первичного ключа. Ключи также можно задавать путем выбора или отмены выбора в столбце Ключ.
-
Допускает значение NULL
-
Тип данных
Задайте тип данных для столбца. Для некоторых типов данных можно задать дополнительное свойство, например, Длина.
Общие сведения о воздействии изменения типа данных
Существует два распространенных сценария применения, которые требуют изменения размера типа данных или переключения на другой тип данных:
- Вставка данных, не соответствующих текущему типу данных.
- Потребность в более высокой числовой точности. Например, изменение типа SMALLINT на тип DECIMAL (p,s).
В большинстве случаев изменение типа данных приводит к операции ALTER TABLE (ИЗМЕНИТЬ ТАБЛИЦУ), что предотвращает потерю данных. Например, если прежний тип данных ― STRING (25), а новый ― STRING (50), то данные в столбце с новым типом данных будут обновлены без проблем. Однако в некоторых случаях изменение типа данных может привести к отбрасыванию и повторному созданию таблицы. Например, если тип данных столбца NUMBER меняется на DATE, таблица будет отброшена и повторно создана, так как числа невозможно преобразовать в даты. Подобным образом, если целевая платформа не поддерживает операции таблицы ALTER (например, Databricks), таблица будет отброшена и создана повторно.
Существуют некоторые случаи, когда теоретически возможно изменить таблицу, но из-за сложности процесса задача данных отбрасывает и создает таблицу повторно. И, наконец, есть случаи, когда операцию отбрасывания и повторного создания провоцирует потенциальная, а не фактическая потеря данных. Например, если тип данных STRING(25) меняется на STRING(1), произойдет потеря данных, если вставленные данные не соответствуют типу STRING(1). Однако возможно, что STRING(25) будет всегда содержать только один символ, поэтому на практике потери данных не будет, но таблица все равно будет отбрасываться и создаваться повторно вследствие потенциальной потери данных.
Изменения типов данных, которые требуют отбрасывания и повторного создания таблицы независимо от целевой платформы
Изменение следующих типов данных всегда приводит к отбрасыванию и повторному созданию таблицы:
- BYTES
- BLOB
- CLOB
- NCLOB
Целевые платформы, которые поддерживают изменение размера типа данных без отбрасывания и повторного создания таблицы
При работе с платформами Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server и Azure Synapse Analytics можно изменять размер определенных типов данных без отбрасывания и повторного создания таблицы. В следующей таблице перечислены типы данных, поддерживаемые для всех вышеупомянутых платформ.
Тип данных | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
Нет |
Да |
Да |
Да |
Нет |
INT2 |
Нет |
Да |
Да |
Да |
Нет |
INT4 |
Нет |
Да |
Да |
Да |
Нет |
INT8 |
Нет |
Да |
Да |
Да |
Нет |
REAL4 |
Нет |
Нет |
Да |
Да |
Нет |
REAL8 |
Нет |
Нет |
Да |
Да |
Нет |
UINT1 |
Нет |
Да |
Да |
Да |
Нет |
UINT2 |
Нет |
Да |
Да |
Да |
Нет |
UNIT4 |
Нет |
Да |
Да |
Да |
Нет |
UNIT8 |
Нет |
Да |
Да |
Да |
Нет |
NUMERIC |
Да |
Да |
Да |
Да |
Нет |
STRING |
Да |
Да |
Да |
Да |
Да |
WSTRING |
Нет |
Да |
Да |
Да |
Нет |
Целевые платформы, которые поддерживают изменение типа данных на STRING без отбрасывания и повторного создания таблицы
При переносе данных на платформу Microsoft SQL Server и Azure Synapse Analytics можно изменить следующие типы данных на STRING без отбрасывания и повторного создания таблицы:
- BOOLEAN
- DATE
- TIME
- DATETIME
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- NUMERIC
- WSTRING (поддерживается только для Azure Synapse Analytics)
Удаление столбцов
Из набора данных можно удалить один или несколько столбцов.
-
Выберите столбцы для удаления и нажмите Удалить.
Если необходимо просмотреть удаленные столбцы, нажмите Показать удаленные столбцы. Удаленные столбцы отображаются зачеркнутым текстом. Удаленный столбец можно восстановить, выбрав его и нажав «Вернуть».
Отмена явных изменений в столбцах
Все явные изменения в одном или нескольких столбцах можно отменить.
-
Выберите столбцы, в которых необходимо отменить изменения, и нажмите «Вернуть».
Изменения, внесенные правилами глобального преобразования, не будут отменены.
Если вернуть добавленную колонку, она будет удалена.
Параметры набора данных
Параметры набора данных можно изменить. Параметр по умолчанию наследуется от ресурса данных, но его также можно изменить так, чтобы значение было явно Вкл. или Выкл.
-
Нажмите на наборе данных и выберите Параметры.
Просмотр данных
Можно открыть образец данных, чтобы посмотреть и проверить форму данных в процессе проектирования конвейера данных.
Должны соблюдаться следующие требования:
-
Просмотр данных включается на уровне клиента в Администрирование.
Включите Параметры > Контроль функции > Просмотр данных в Интеграция данных.
-
Вам назначена роль Может просматривать данные в пространстве, где находится подключение.
-
Вам назначена роль Может просматривать в пространстве, где находится проект.
Чтобы просмотреть образец данных на вкладке Наборы данных в виде Дизайн, выполните следующие действия.
-
Щелкните Просмотреть данные в разделе Физические объекты.
Отображается образец данных. Параметр Количество строк позволяет настроить, сколько строк требуется включить в образец.
Чтобы переключаться между наборами данных и таблицами, выполните следующие действия.
-
Выберите Наборы данных, чтобы отобразить логическое представление данных.
-
Выберите Физические объекты, чтобы просмотреть физическое представление в базе данных в форме таблиц и видов.
Примечание к новостямЭтот вариант недоступен, если физическое представление еще не создано.
Можно фильтровать данные образца двумя способами:
-
Используйте для ограничения объема извлекаемых данных образца.
Например, если используется фильтр ${OrderYear}>2023 и параметру Количество строк задано значение 10, будет отображен образец, содержащий 10 заказов за 2024 год.
-
Фильтруйте данные образца по конкретному столбцу.
Это затронет только существующие данные образца. Если использовать , чтобы включить только заказы за 2024 год, а фильтр столбцов настроен для отображения заказов за 2022 год, будет возвращен пустой образец.
Также можно сортировать образец данных по конкретному столбцу. Сортировка затронет только существующие данные образца. Если использовать , чтобы включить только заказы за 2024 год, и инвертировать порядок сортировки, данные образца будут содержать только заказы за 2024 год.
Можно скрывать столбцы в виде данных:
-
Чтобы скрыть один столбец, щелкните на столбце и выберите Скрыть столбец.
-
Чтобы скрыть несколько столбцов, щелкните на столбце и выберите Отобразить столбцы. Это позволяет управлять видимостью всех столбцов в виде.
Проверка и исправление наборов данных
Все наборы данных, содержащиеся в задаче данных, можно проверить.
Разверните раздел Проверить и исправить, чтобы просмотреть все ошибки проверки и изменения дизайна.
Проверка наборов данных
-
Нажмите Проверить наборы данных, чтобы проверить наборы данных.
Проверка выполняется по следующим критериям:
-
у всех ли таблиц есть первичный ключ;
-
все ли атрибуты на месте;
-
есть ли дублирующиеся имена таблиц или столбцов.
Кроме того, будет представлен список изменений в дизайне по сравнению с исходным дизайном:
-
добавленные таблицы и столбцы;
-
удаленные таблицы и столбцы;
-
переименованные таблицы и столбцы;
-
измененные первичные ключи и типы данных.
Разверните раздел Проверить и исправить, чтобы просмотреть все ошибки проверки и изменения дизайна.
-
Исправьте ошибки проверки, а затем снова выполните проверку наборов данных.
-
Большинство изменений в дизайне могут быть исправлены автоматически, за исключением измененных первичных ключей или типов данных. В этом случае необходимо выполнить синхронизацию наборов данных.
Подготовка наборов данных
Наборы данных можно подготовить к корректировке изменений в дизайне без потери данных, если это возможно. Если есть изменения в дизайне, которые невозможно скорректировать без потери данных, появится возможность воссоздать таблицы из источника с потерей данных.
Для этого необходимо остановить задачу.
-
Нажмите и выберите Подготовка.
По завершении подготовки наборов данных проверьте их, прежде чем перезапускать задачу хранения.
Воссоздание наборов данных
Можно воссоздать наборы данных из источника. При повторном создании набора данных происходит потеря данных. Пока имеются исходные данные, их можно перезагрузить из источника.
Для этого необходимо остановить задачу.
-
Нажмите и выберите Воссоздать.
Ограничения
-
При удалении или переименовании столбца в Google BigQuery таблица будет воссоздана, что приведет к потере данных.