Промежуточное хранилище данных в озере данных при использовании подписки Standard, Premium или Enterprise
Можно настроить задачу Промежуточное хранение данных в озере данных, чтобы поместить данные на промежуточное хранение в следующие цели:
Amazon S3
Для получения информации о настройке подключения к Amazon S3 см. раздел Amazon S3.
Azure Data Lake Storage
Для получения информации о настройке подключения к Azure Data Lake Storage см. раздел Azure Data Lake Storage.
Google Cloud Storage
Для получения информации о настройке подключения к Google Cloud Storage см. раздел Google Cloud Storage.
Для получения информации о настройке подключений к источникам данных см. раздел Настройка подключений к источникам данных.
Порядок настройки задачи промежуточного хранения данных в озере данных:
Выберите Интеграция данных > Проекты и щелкните Создать проект.
В диалоговом окне Новый проект выполните следующие действия.
В поле Имя укажите название своего проекта.
- Выберите пространство, в котором требуется создать проект.
- При необходимости заполните поле Описание.
- Выберите Репликация в поле Пример использования.
- По выбору можно снять флажок Открыть, если требуется создать пустой проект, не настраивая параметры.
Нажмите кнопку Создать.
Произойдет одно из следующего:
- Если флажок Открыть в диалоговом окне Новый проект установлен (по умолчанию), проект будет открыт.
- Если флажок Открыть в диалоговом окне Новый проект был снят, проект будет добавлен в список проектов. Проект можно открыть позднее, выбрав команду Открыть в меню проекта.
После того как проект откроется, щелкните Промежуточное хранение данных в озере данных.
Откроется мастер Промежуточное хранение данных в озере данных.
На вкладке Общие укажите имя и описание задачи промежуточного хранения данных в озере. Затем щелкните Далее.
Примечание к информацииИмена, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.На вкладке Выберите подключение к источнику выберите подключение к источнику данных. На сове усмотрение, можно изменить настройки подключения, выбрав команду Изменить в меню столбца Действия.
Если такого подключения к источнику пока нет, его необходимо создать. Для этого нажмите Создать подключение в верхнем правом углу вкладки.
Список подключений можно отфильтровать, используя фильтры слева. Доступна фильтрация подключений по типу источника, шлюзу, пространству и владельцу. На кнопке Все фильтры над списком подключений отображается количество текущих фильтров. Нажмите эту кнопку, чтобы закрыть или открыть панель Фильтры слева. Текущие активные фильтры также отображаются над списком доступных подключений.
Также можно сортировать список, выбрав Последние измененные, Последние созданные или В алфавитном порядке в раскрывающемся списке справа. Щелкните стрелку справа от списка, чтобы изменить порядок сортировки.
Выбрав подключение к источнику данных, можно нажать кнопку Проверка подключения в верхнему правом углу вкладки (рекомендуется), а затем нажмите кнопку Далее.
На вкладке Выберите наборы данных выберите таблицы и (или) виды, которые требуется включить в задачу промежуточного хранения в озере данных. Можно использовать знаки подстановки и создать правила выборки, как описано в Выбор данных в базе данных.
Примечание к информацииИмена схем, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.На вкладке Выберите целевое подключение выберите цель в списке доступных подключений, затем нажмите кнопку Далее. С точки зрения функциональности эта вкладка полностью соответствует вкладке Выберите подключение к источнику, описанной ранее.
На вкладке Параметры можно, на свое усмотрение, изменить следующие настройки, а затем нажать кнопку Далее.
Метод обновления:
Захват изменений данных (CDC): задачи промежуточного хранения в озере данных начинаются с полной загрузки (во время которой все выбранные таблицы помещаются на промежуточное хранение). После этого актуальность данных промежуточного хранения поддерживается с использованием технологии CDC (Change Data Capture, захват данных изменений).
Примечание к информацииCDC (Захват изменений данных) для операций DDL не поддерживается.При работе с Data Movement Gateway изменения захватываются из источника практически в режиме реального времени. При работе без Data Movement Gatewayизменения захватываются в соответствии с параметрами планировщика. Для получения дополнительной информации см. раздел Планирование задач при работе без Data Movement Gateway.
- Перезагрузить: выполняется полная загрузка данных из выбранных исходных таблиц на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но при необходимости ее можно выполнять вручную или по расписанию на регулярной основе.
Если выбран вариант Захват изменений данных (CDC) и данные также содержат таблицы, которые не поддерживают CDC, или виды, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка.
Папка для использования:
Выберите одно из перечисленного ниже в зависимости от того, в какую папку блока требуется записывать файлы:
- Папка по умолчанию: Формат папки по умолчанию: <имя_проекта>/<имя_задачи>
- Корневая папка: файлы будут записываться прямо в блок.
Папка: укажите имя папки. Если папка не существует, она будет создана при выполнении задачи промежуточного хранения в озере данных.
Примечание к информации Имя папки не должно включать специальных символов (например, @, #, ! и т. д.).
На вкладке Сводка отображается визуальное представление конвейера данных. Выберите нужно действие: Открыть задачу <имя> или Ничего не делать. Затем щелкните Создать.
В зависимости от выбранного варианта, будет открыта задача или список проектов.
Если пользователь решил открыть задачу, на вкладке Наборы данных будет отображаться структура и метаданные выбранных таблиц ресурсов данных. В их число входят все прямо перечисленные таблицы, а также таблицы, которые отвечают правилам выбора.
Если требуется добавить больше таблиц из источника данных, нажмите Выбрать источник данных.
На свое усмотрение измените параметры задачи, как описано в Настройки для целей типа «облачное хранилище».
Можно выполнять преобразования наборов данных, фильтровать данные или добавлять столбцы.
Для получения дополнительной информации см. раздел Управление наборами данных.
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Если проверка завершится ошибкой, необходимо устранить обнаруженные ошибки, прежде чем продолжить.
Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
После изменения нажмите Подготовить, чтобы сохранить в каталоге задачу промежуточного хранения и подготовить ее для выполнения.
Завершив подготовку задачи данных, щелкните Запустить.
Должно начаться выполнение задачи промежуточного хранения данных в озере. Отслеживать ход выполнения можно в виде Мониторинг. Для получения дополнительной информации см. раздел Мониторинг индивидуальной задачи данных
Настройка приоритета загрузки для наборов данных
В задаче данных можно назначить приоритет загрузки каждому набору данных, чтобы управлять порядком их загрузки. Это может быть полезно, например, если необходимо, чтобы меньшие наборы данных загружались раньше больших.
Щелкните Приоритет загрузки.
Выберите приоритет загрузки для каждого набора данных.
По умолчанию задан приоритет загрузки Нормальный. Наборы данных будут загружаться в следующем порядке приоритета:
Самый высокий
Более высокий
Высокий
Нормальный
Низкий
Более низкий
Самый низкий
Наборы данных с одинаковым приоритетом загружаются без соблюдения какого-то особого порядка.
Щелкните ОК.
Обновление метаданных
Можно обновить метаданные в задаче в соответствии с изменениями метаданных источника в виде Дизайн задачи. Для приложений SaaS, использующих Metadata Manager, необходимо обновить Metadata Manager, прежде чем обновлять метаданные в задаче данных.
Можно либо:
Щелкните ..., а затем Обновить метаданные, чтобы обновить метаданные для всех наборов данных в задаче.
Щелкните ... для набора данных в списке Наборы данных, а затем Обновить метаданные, чтобы обновить метаданные для одного набора данных.
Можно просмотреть статус обновления метаданных в области Обновить метаданные в нижней части экрана. Чтобы увидеть время последнего обновления метаданных, наведите указатель мыши на .
Подготовьте задачу данных, чтобы применить изменения.
После того как задача данных подготовлена, а изменения применены, изменения удаляются из области Обновить метаданные.
Необходимо подготовить задачи хранения, которые используют эту задачу для распространения изменений
Если столбец удаляется, добавляется преобразование с нулевыми значениями (Null), чтобы исключить потерю исторических данных при хранении
Ограничения при обновлении метаданных
Если выполняется переименование столбца, а предшествующий столбец отбрасывается, эта задача преобразуется в переименование отброшенного столбца, если эти столбцы имеют одинаковые тип и длину данных.
Пример:
До: a b c d
После: a c1 d
В этом примере столбец b отбрасывался, а c переименован в c1, при этом b и c имеют одинаковые тип и длину данных.
Это будет идентифицировано как переименование b в c1 и отбрасывание c.
Переименование последнего столбца не распознается, даже если он отброшен, а предшествующий столбец переименован.
Пример:
До: a b c d
После: a b c1
В этом примере столбец d отброшен, а c переименован в c1.
Это будет идентифицировано как отбрасывание c и d, и добавление c1.
Предполагается, что новые столбцы добавляются в конце. Если столбцы добавляются в середине с тем же типом данных, что и следующий столбец, эти задачи могут быть интерпретированы как отбрасывание и переименование.
Эволюция схемы
Эволюция схем позволяет легко обнаружить структурные изменения в нескольких источниках данных, а затем контролировать применение этих изменений к задаче. Эволюцию схемы можно использовать для обнаружения изменений DDL, которые были внесены в исходную схему данных. Также можно применить некоторые изменения автоматически.
Для каждого типа изменения можно выбрать способ обработки изменений в разделе Эволюции схемы в настройках задачи. Можно применить изменение, проигнорировать его, приостановить работу таблицы или остановить обработку задачи.
Можно задать, какое действие будет использоваться для обработки изменений DDL для каждого типа изменений. Некоторые действия доступны не для всех типов изменений.
Применить к цели
Изменения применяются автоматически.
Игнорировать
Изменения игнорируются.
Приостановить таблицу
Таблица приостанавливается. Для таблицы будет отображаться ошибка в разделе Мониторинг.
Остановить задачу
Обработка задачи останавливается. Это удобно, если требуется обрабатывать все изменения схемы вручную. Это также остановит составление графика, то есть запланированные запуски не будут выполняться.
Поддерживаются следующие изменения:
Добавить столбец
Переименовать столбец
Изменить тип данных столбца
Добавить таблицу, соответствующую шаблону выборки
Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону.
Для получения дополнительной информации о параметрах задачи см. раздел Эволюция схемы
Также можно получать уведомления об изменениях, которые обрабатываются в рамках эволюции схемы. Для получения дополнительной информации см. раздел Настройка уведомлений об изменениях в работе.
Ограничения для эволюции схемы
При эволюции схемы действуют следующие ограничения.
Эволюция схемы поддерживается только при использовании CDC в качестве метода обновления.
Если параметры эволюции схемы изменены, необходимо подготовить задачу заново.
Если выполняется переименование таблиц, эволюция схемы не поддерживается. В этом случае необходимо обновить метаданные перед подготовкой задачи.
В процессе разработки задачи необходимо обновить браузер, чтобы получить изменения эволюции схемы. Можно настроить уведомления, чтобы получать оповещения об изменениях.
В задачах промежуточного хранения отбрасывание столбцов не поддерживается. Отбрасывание и добавление столбца приведет к ошибке таблицы.
В задачах промежуточного хранения операция DROP TABLE (ОТБРОСИТЬ ТАБЛИЦУ) не приведет к отбрасыванию таблицы. Удаление таблицы и последующее добавление таблицы приводит лишь к тому, что старая таблица усекается, а новая таблица не добавляется.
Изменение длины столбца возможно не для всех целей в зависимости от поддержки в целевой базе данных.
Если имя столбца изменено, явные преобразования, определенные с помощью этого столбца, не будут выполняться, так как они основаны на имени столбца.
Ограничения, действующие при обновлении метаданных, также распространяются и на эволюцию схем.
При захвате изменений DDL действуют следующие ограничения:
Когда в исходной базе данных происходит быстрая последовательность операций (например, DDL>DML>DDL), Qlik Talend Data Integration может разобрать журнал в неправильном порядке, что приведет к отсутствию данных или непредсказуемому поведению. Чтобы свести к минимуму такую вероятность, лучше всего подождать, пока изменения будут применены к цели, и только после этого выполнять следующую операцию.
Например, если исходная таблица переименовывается несколько раз подряд в течение короткого интервала времени (и вторая операция переименования возвращает ей исходное имя), во время захвата изменений может появиться сообщение об ошибке, что таблица уже существует в целевой базе данных.
- Если выполняется переименование таблицы, используемой в задаче, а затем эта задача останавливается, Qlik Talend Data Integration не захватит изменения, внесенные в эту таблицу после возобновления задачи.
Переименование исходной таблицы, пока задача остановлена, не поддерживается.
- Перераспределение столбцов первичного ключа таблицы не поддерживается (и поэтому не записывается в управляющую таблицу DDL History).
- Если тип данных столбца изменен, а затем выполняется переименование этого же столбца, пока задание остановлено, изменение DDL отражается в управляющей таблице DDL History как Drop Column (Отбросить столбец), а затем Add Column (Добавить столбец), когда задача возобновляется. Обратите внимание, что такое же поведение может наблюдаться и в результате длительной задержки.
- Операции CREATE TABLE (СОЗДАТЬ ТАБЛИЦУ), выполненные в источнике, пока задача остановлена, будут применены к цели при возобновлении задачи, но не будут записаны как DDL в управляющей таблице DDL History.
Операции, связанные с изменением метаданных (такие как ALTER TABLE (ИЗМЕНИТЬ ТАБЛИЦУ), реорганизация, перестройка кластеризованного индекса и т. д.), могут вызывать непредсказуемое поведение, если они были выполнены:
Во время полной загрузки
-ИЛИ-
Между меткой времени Начать обработку изменений с и текущим временем (т. е. моментом, когда пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска).
Пример:
ЕСЛИ:
Указанное время Начать обработку изменений с ― 10:00.
И:
Столбец с именем Age (Возраст) добавляется в таблицу Employees (Сотрудники) в 10:10 утра.
И:
Пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска в 10:15 утра.
ТО:
Изменения, которые произошли между 10:00 и 10:10, могут привести к ошибкам CDC.
Примечание к информацииВ любом из вышеперечисленных случаев необходимо перезагрузить затронутые таблицы, чтобы данные были правильно перенесены (перенесено) в цель.
- Оператор DDL
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
не реплицирует значение по умолчанию в цель, и новый/измененный столбец получает значение NULL. Обратите внимание, что это может произойти, даже если DDL, добавивший/изменивший столбец, был выполнен в прошлом. Если новый/измененный столбец допускает нулевые значения, конечная точка источника обновляет все строки таблицы, прежде чем регистрировать сам DDL. В результате Qlik Talend Data Integration захватывает изменения, но не обновляет цель. Поскольку новый/измененный столбец получает значение NULL, то если целевая таблица не имеет столбца первичного ключа/уникального индекса, при последующих обновлениях будет появляться сообщение «Затронуто строк: 0». Изменения в столбцах с точными данными TIMESTAMP (МЕТКА ВРЕМЕНИ) и DATE (ДАТА) не будут захватываться.
Ограничения и замечания при промежуточном хранении данных в озере данных
В отношении преобразований действуют следующие ограничения:
- Преобразования не поддерживаются для столбцов на языках с письмом справа налево.
Невозможно выполнять преобразования в столбцах, в имени которых есть специальные символы (например, #, \, /, -).
- Единственное поддерживаемое преобразование для типов данных LOB/CLOB ― это отбрасывание столбца в целевой таблице.
- Не поддерживается использование преобразования с целью переименования столбца и последующего добавления нового столбца с тем же именем.
Изменение допустимости нулевых значений не поддерживается в столбцах, которые перемещены путем непосредственного изменения или с использованием правила преобразования. Однако новые столбцы, создаваемые в задаче, допускают нулевые значения по умолчанию.