Промежуточное хранилище данных в озере данных при использовании подписки Standard, Premium или Enterprise
Можно настроить задачу Промежуточное хранение данных в озере данных, чтобы поместить данные на промежуточное хранение в следующие цели:
Amazon S3
Для получения информации о настройке подключения к Amazon S3 см. раздел Amazon S3.
Azure Data Lake Storage
Для получения информации о настройке подключения к Azure Data Lake Storage см. раздел Azure Data Lake Storage.
Google Cloud Storage
Для получения информации о настройке подключения к Google Cloud Storage см. раздел Google Cloud Storage.
Для получения информации о настройке подключений к источникам данных см. раздел Настройка подключений к источникам данных.
Порядок настройки задачи промежуточного хранения данных в озере данных:
Выберите Интеграция данных > Проекты и щелкните Создать проект.
В диалоговом окне Новый проект выполните следующие действия.
В поле Имя укажите название своего проекта.
- Выберите пространство, в котором требуется создать проект.
- При необходимости заполните поле Описание.
- Выберите Репликация в поле Пример использования.
- По выбору можно снять флажок Открыть, если требуется создать пустой проект, не настраивая параметры.
Нажмите кнопку Создать.
Произойдет одно из следующего:
- Если флажок Открыть в диалоговом окне Новый проект установлен (по умолчанию), проект будет открыт.
- Если флажок Открыть в диалоговом окне Новый проект был снят, проект будет добавлен в список проектов. Проект можно открыть позднее, выбрав команду Открыть в меню проекта.
После того как проект откроется, щелкните Промежуточное хранение данных в озере данных.
Откроется мастер Промежуточное хранение данных в озере данных.
На вкладке Общие укажите имя и описание задачи промежуточного хранения данных в озере. Затем щелкните Далее.
Примечание к информацииИмена, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.На вкладке Выберите подключение к источнику выберите подключение к источнику данных. На сове усмотрение, можно изменить настройки подключения, выбрав команду Изменить в меню столбца Действия.
Если такого подключения к источнику пока нет, его необходимо создать. Для этого нажмите Создать подключение в верхнем правом углу вкладки.
Список подключений можно отфильтровать, используя фильтры слева. Доступна фильтрация подключений по типу источника, шлюзу, пространству и владельцу. На кнопке Все фильтры над списком подключений отображается количество текущих фильтров. Нажмите эту кнопку, чтобы закрыть или открыть панель Фильтры слева. Текущие активные фильтры также отображаются над списком доступных подключений.
Также можно сортировать список, выбрав Последние измененные, Последние созданные или В алфавитном порядке в раскрывающемся списке справа. Щелкните стрелку справа от списка, чтобы изменить порядок сортировки.
Выбрав подключение к источнику данных, можно нажать кнопку Проверка подключения в верхнему правом углу вкладки (рекомендуется), а затем нажмите кнопку Далее.
На вкладке Выберите наборы данных выберите таблицы и (или) виды, которые требуется включить в задачу промежуточного хранения в озере данных. Можно использовать знаки подстановки и создать правила выборки, как описано в Выбор данных в базе данных.
Примечание к информацииИмена схем, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.На вкладке Выберите целевое подключение выберите цель в списке доступных подключений, затем нажмите кнопку Далее. С точки зрения функциональности эта вкладка полностью соответствует вкладке Выберите подключение к источнику, описанной ранее.
На вкладке Параметры можно, на свое усмотрение, изменить следующие настройки, а затем нажать кнопку Далее.
Метод обновления:
Захват изменений данных (CDC): задачи промежуточного хранения в озере данных начинаются с полной загрузки (во время которой все выбранные таблицы помещаются на промежуточное хранение). После этого актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват данных изменений).
Примечание к информацииCDC (Захват изменений данных) для операций DDL не поддерживается.При работе с Data Movement Gateway изменения захватываются из источника практически в режиме реального времени. При работе без Data Movement Gatewayизменения захватываются в соответствии с параметрами планировщика. Для получения дополнительной информации см. раздел Планирование задач при работе без Data Movement Gateway.
- Перезагрузить: выполняется полная загрузка данных из выбранных исходных таблиц на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но при необходимости ее можно выполнять вручную или по расписанию на регулярной основе.
Если выбран вариант Захват изменений данных (CDC) и данные также содержат таблицы, которые не поддерживают CDC, или виды, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка.
Папка для использования:
Выберите одно из перечисленного ниже в зависимости от того, в какую папку блока требуется записывать файлы:
- Папка по умолчанию: Формат папки по умолчанию: <имя_проекта>/<имя_задачи>
- Корневая папка: файлы будут записываться прямо в блок.
Папка: укажите имя папки. Если папка не существует, она будет создана при выполнении задачи промежуточного хранения в озере данных.
Примечание к информации Имя папки не должно включать специальных символов (например, @, #, ! и т. д.).
На вкладке Сводка отображается визуальное представление конвейера данных. Выберите нужно действие: Открыть задачу <имя> или Ничего не делать. Затем щелкните Создать.
В зависимости от выбранного варианта, будет открыта задача или список проектов.
Если пользователь решил открыть задачу, на вкладке Наборы данных будет отображаться структура и метаданные выбранных таблиц ресурсов данных. В их число входят все прямо перечисленные таблицы, а также таблицы, которые отвечают правилам выбора.
Если требуется добавить больше таблиц из источника данных, нажмите Выбрать источник данных.
На свое усмотрение измените параметры задачи, как описано в Настройки для целей типа «облачное хранилище».
Можно выполнять преобразования наборов данных, фильтровать данные или добавлять столбцы.
Для получения дополнительной информации см. раздел Управление наборами данных.
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Если проверка завершится ошибкой, необходимо устранить обнаруженные ошибки, прежде чем продолжить.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
После изменения нажмите Подготовить, чтобы сохранить в каталоге задачу промежуточного хранения и подготовить ее для выполнения.
Завершив подготовку задачи данных, щелкните Запустить.
Должно начаться выполнение задачи промежуточного хранения данных в озере. Отслеживать ход выполнения можно в виде Мониторинг. Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных
Настройка приоритета загрузки для наборов данных
В задаче данных можно назначить приоритет загрузки каждому набору данных, чтобы управлять порядком их загрузки. Это может быть полезно, например, если необходимо, чтобы меньшие наборы данных загружались раньше больших.
Щелкните Приоритет загрузки.
Выберите приоритет загрузки для каждого набора данных.
По умолчанию задан приоритет загрузки Нормальный. Наборы данных будут загружаться в следующем порядке приоритета:
Самый высокий
Более высокий
Высокий
Нормальный
Низкий
Более низкий
Самый низкий
Наборы данных с одинаковым приоритетом загружаются без соблюдения какого-то особого порядка.
Щелкните ОК.
Обновление метаданных
Можно обновить метаданные в задаче в соответствии с изменениями метаданных источника в виде Дизайн задачи. Для приложений SaaS, использующих Metadata Manager, необходимо обновить Metadata Manager, прежде чем обновлять метаданные в задаче данных.
Можно либо:
Щелкните ..., а затем Обновить метаданные, чтобы обновить метаданные для всех наборов данных в задаче.
Щелкните ... для набора данных в списке Наборы данных, а затем Обновить метаданные, чтобы обновить метаданные для одного набора данных.
Можно просмотреть статус обновления метаданных в области Обновить метаданные в нижней части экрана. Чтобы увидеть время последнего обновления метаданных, наведите указатель мыши на .
Подготовьте задачу данных, чтобы применить изменения.
После того как задача данных подготовлена, а изменения применены, изменения удаляются из области Обновить метаданные.
Необходимо подготовить задачи хранения, которые используют эту задачу для распространения изменений
Если столбец удаляется, добавляется преобразование с нулевыми значениями (Null), чтобы исключить потерю исторических данных при хранении
Ограничения
Если выполняется переименование столбца, а предшествующий столбец отбрасывается, эта задача преобразуется в переименование отброшенного столбца, если эти столбцы имеют одинаковые тип и длину данных.
Пример:
До: a b c d
После: a c1 d
В этом примере столбец b отбрасывался, а c переименован в c1, при этом b и c имеют одинаковые тип и длину данных.
Это будет идентифицировано как переименование b в c1 и отбрасывание c.
Переименование последнего столбца не распознается, даже если он отброшен, а предшествующий столбец переименован.
Пример:
До: a b c d
После: a b c1
В этом примере столбец d отброшен, а c переименован в c1.
Это будет идентифицировано как отбрасывание c и d, и добавление c1.
Предполагается, что новые столбцы добавляются в конце. Если столбцы добавляются в середине с тем же типом данных, что и следующий столбец, эти задачи могут быть интерпретированы как отбрасывание и переименование.
Ограничения и замечания при промежуточном хранении данных в озере данных
В отношении преобразований действуют следующие ограничения:
- Преобразования не поддерживаются для столбцов на языках с письмом справа налево.
Невозможно выполнять преобразования в столбцах, в имени которых есть специальные символы (например, #, \, /, -).
- Единственное поддерживаемое преобразование для типов данных LOB/CLOB ― это отбрасывание столбца в целевой таблице.
- Не поддерживается использование преобразования с целью переименования столбца и последующего добавления нового столбца с тем же именем.
Изменение допустимости нулевых значений не поддерживается в столбцах, которые перемещены путем непосредственного изменения или с использованием правила преобразования. Однако новые столбцы, создаваемые в задаче, допускают нулевые значения по умолчанию.