Промежуточное хранилище данных в озере данных при использовании подписки Standard, Premium или Enterprise

Можно настроить задачу Промежуточное хранение данных в озере данных, чтобы поместить данные на промежуточное хранение в следующие цели:

Amazon S3

Для получения информации о настройке подключения к Amazon S3 см. раздел Amazon S3.
Azure Data Lake Storage

Для получения информации о настройке подключения к Azure Data Lake Storage см. раздел Azure Data Lake Storage.
Google Cloud Storage

Для получения информации о настройке подключения к Google Cloud Storage см. раздел Google Cloud Storage.

Хотя можно задать параметры в области Промежуточное хранение данных в озере данных для подключения источника и цели в мастере настройки задачи, с целью упрощения процедуры настройки рекомендуется сделать это до настройки задачи.

Для получения информации о настройке подключений к источникам данных см. раздел Настройка подключений к источникам данных.

Порядок настройки задачи промежуточного хранения данных в озере данных:

Выберите Интеграция данных > Проекты и щелкните Создать и выберите Проект.
В диалоговом окне Новый проект выполните следующие действия.
1. В поле Имя укажите название своего проекта.
2. Выберите пространство, в котором требуется создать проект.
3. При необходимости заполните поле Описание.
4. Выберите Репликация в поле Пример использования.
5. По выбору можно снять флажок Открыть, если требуется создать пустой проект, не настраивая параметры.
6. Нажмите Создать.
  
  Произойдет одно из следующего:
  - Если флажок Открыть в диалоговом окне Новый проект установлен (по умолчанию), проект будет открыт.
  - Если флажок Открыть в диалоговом окне Новый проект был снят, проект будет добавлен в список проектов. Проект можно открыть позднее, выбрав команду Открыть в меню проекта.
После того как проект откроется, щелкните Промежуточное хранение данных в озере данных.

Откроется мастер Промежуточное хранение данных в озере данных.
На вкладке Общие укажите имя и описание задачи промежуточного хранения данных в озере. Затем нажмите Далее.

Примечание к информацииИмена, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.
На вкладке Выберите подключение к источнику выберите подключение к источнику данных. На сове усмотрение, можно изменить настройки подключения, выбрав команду Изменить в меню столбца Действия.

Примечание к информацииЕсли изменить подключение к источнику или шлюз исходных данных после того, как задача уже была подготовлена, то в таком случае нужно заново создать все наборы данных.

Если такого подключения к источнику пока нет, его необходимо создать. Для этого нажмите Создать подключение в верхнем правом углу вкладки.

Список подключений можно отфильтровать, используя фильтры слева. Доступна фильтрация подключений по типу источника, шлюзу, пространству и владельцу. На кнопке Все фильтры над списком подключений отображается количество текущих фильтров. Нажмите эту кнопку, чтобы закрыть или открыть панель «Фильтры» слева. Текущие активные фильтры также отображаются над списком доступных подключений.

Также можно сортировать список, выбрав Последние измененные,Последние созданные или В алфавитном порядке в раскрывающемся списке справа. Щелкните стрелку справа от списка, чтобы изменить порядок сортировки.

Выбрав подключение к источнику данных, можно нажать кнопку Проверка подключения в верхнему правом углу вкладки (рекомендуется), а затем нажмите кнопку Далее.
На вкладке Выберите наборы данных выберите таблицы и (или) виды, которые требуется включить в задачу промежуточного хранения в озере данных. Можно использовать знаки подстановки и создать правила выборки, как описано в Выбор данных из базы данных.

Примечание к информацииИмена схем, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.
На вкладке Выберите целевое подключение выберите цель в списке доступных подключений, затем нажмите кнопку Далее. С точки зрения функциональности эта вкладка полностью соответствует вкладке Выберите подключение к источнику, описанной ранее.

Примечание к информацииЕсли изменить подключение к цели после того, как была сохранена соответствующая задача, то в этом случае нужно заново создать все наборы данных.
На вкладке Параметры можно, на свое усмотрение, изменить следующие настройки, а затем нажать кнопку Далее.

Метод обновления:
- Захват измененных данных (CDC) с использованием таблиц изменений: Задачи промежуточного хранения в озере данных начинаются с полной загрузки (во время которой все выбранные таблицы загружаются в цель). После этого актуальность данных в цели поддерживается с использованием технологии CDC (Change Data Capture, захват данных изменений).
  
  Примечание к информацииCDC (Захват изменений данных) для операций DDL не поддерживается.
  
  При работе с Шлюз движения данных, за исключением случаев использования источника приложения SaaS, изменения захватываются из источника практически в режиме реального времени. При работе без Шлюз движения данных или с источниками приложений SaaS, изменения захватываются в соответствии с параметрами планировщика. Для получения дополнительной информации см. раздел Scheduling tasks.
- Перезагрузка: выполняется полная загрузка данных из выбранных исходных таблиц на целевую платформу, при необходимости создаются целевые таблицы. Полная загрузка выполняется автоматически, когда запускается задача, но при необходимости ее можно выполнять вручную или по расписанию на регулярной основе.
  
  Примечание к информацииЭтот параметр недоступен при использовании коннектора для приложений SaaS.
Примечание к информации
Когда в качестве метода обновления используется CDC (захват изменений данных), и ваш источник данных:
- Не является приложением SaaS
- Содержит наборы данных, поддерживающие CDC, и наборы данных, поддерживающие только Перезагрузку (например, представления)
Два конвейера данных будут созданы. Один конвейер будет создан для таблиц, поддерживающих CDC, и еще один конвейер будет создан для наборов данных, поддерживающих перезагрузку только.
Папка для использования

Выберите один из следующих вариантов в зависимости от того, в какую папку блока вы хотите записать файлы:
- Папка по умолчанию
  
  Формат папки по умолчанию: <имя-вашего-проекта>/<имя-вашей-задачи>
- Корневая папка
  
  Файлы будут записаны в корневую папку блока.
- Папка
  
  Укажите имя папки. Папка будет создана во время выполнения задачи данных, если она еще не существует.
  
  Примечание к информации Имя папки не может содержать специальные символы (например, @, #, ! и так далее).
Планировщик репликаций

Можно запланировать, как часто захватывать изменения из источника данных, и задать дату и время начала. Мастер настройки задачи позволяет установить базовую частоту планирования. После завершения настройки задачи доступны дополнительные варианты планирования.

Для описания всех параметров планирования см. Scheduling tasks.
На вкладке Сводка отображается визуальное представление конвейера данных. Выберите нужное действие: Открыть задачу <name> или Ничего не делать. Затем щелкните Создать.

В зависимости от выбранного варианта, будет открыта задача или список проектов.
Если пользователь решил открыть задачу, на вкладке Наборы данных будет отображаться структура и метаданные выбранных таблиц ресурсов данных. В их число входят все прямо перечисленные таблицы, а также таблицы, которые отвечают правилам выбора.

Если требуется добавить больше таблиц из источника данных, щелкните Выбрать источник данных.
На свое усмотрение измените параметры задачи, как описано в Настройки для целей типа «облачное хранилище».
Можно выполнять преобразования наборов данных, фильтровать данные или добавлять столбцы.

Для получения дополнительной информации см. раздел Управление наборами данных.
При добавлении преобразований можно подтвердить наборы данных, нажав Проверить наборы данных. Если проверка завершится ошибкой, необходимо устранить обнаруженные ошибки, прежде чем продолжить.

Для получения дополнительной информации см. раздел Проверка и исправление наборов данных.
После изменения нажмите Подготовить, чтобы сохранить в каталоге задачу промежуточного хранения и подготовить ее для выполнения.
Завершив подготовку задачи данных, щелкните Запустить.
Должно начаться выполнение задачи промежуточного хранения данных в озере. Отслеживать ход выполнения можно в виде Мониторинг. Для получения дополнительной информации см. Мониторинг индивидуальной задачи данных

Настройка приоритета загрузки для наборов данных

В задаче данных можно назначить приоритет загрузки каждому набору данных, чтобы управлять порядком их загрузки. Это может быть полезно, например, если необходимо, чтобы меньшие наборы данных загружались раньше больших.

Щелкните Приоритет загрузки.
Выберите приоритет загрузки для каждого набора данных.

По умолчанию задан приоритет загрузки Нормальный. Наборы данных будут загружаться в следующем порядке приоритета:
- Самый высокий
- Более высокий
- Высокий
- Нормальный
- Низкий
- Более низкий
- Самый низкий
Наборы данных с одинаковым приоритетом загружаются без соблюдения какого-то особого порядка.
Щелкните ОК.

Наборы данных из источников приложений SaaS могут содержать зависимости в порядке загрузки. Учитывайте это при установке приоритета загрузки.

Эволюция схемы

Эволюция схем позволяет легко обнаружить структурные изменения в нескольких источниках данных, а затем контролировать применение этих изменения к задаче. Эволюцию схемы можно использовать для обнаружения изменений DDL, которые были внесены в исходную схему данных. Также можно применить некоторые изменения автоматически.

Эволюция схем недоступна для Qlik Talend Cloud Starter подписки. При работе с коннекторами приложений SaaS, поддерживаются только изменения типов данных.

Для каждого типа изменения можно выбрать способ обработки изменений в разделе Эволюции схемы в настройках задачи. Можно применить изменение, проигнорировать его, приостановить работу таблицы или остановить обработку задачи.

Можно задать, какое действие будет использоваться для обработки изменений DDL для каждого типа изменений. Некоторые действия доступны не для всех типов изменений.

Применить к цели

Изменения применяются автоматически.
Игнорировать

Изменения игнорируются.
Приостановить таблицу

Таблица приостанавливается. Для таблицы будет отображаться ошибка в разделе Мониторинг.
Остановить задачу

Обработка задачи останавливается. Это удобно, если требуется обрабатывать все изменения схемы вручную. Это также остановит составление графика, то есть запланированные запуски не будут выполняться.

Поддерживаются следующие изменения:

Добавить столбец
Переименовать столбец
Изменить тип данных столбца
Добавить таблицу, соответствующую шаблону выборки

Если использовалось правило выбора для добавления наборов данных, соответствующих шаблону, будут обнаруживаться и добавляться новые таблицы, соответствующие шаблону.

Для получения дополнительной информации о параметрах задачи см. Автоматическая эволюция схемы

Также можно получать уведомления об изменениях, которые обрабатываются в рамках эволюции схемы. Для получения дополнительной информации см. раздел Настройка уведомлений об изменениях в работе.

Ограничения для эволюции схемы

При эволюции схемы действуют следующие ограничения.

Эволюция схемы поддерживается только при использовании CDC в качестве метода обновления.
Если параметры эволюции схемы изменены, необходимо подготовить задачу заново.
Если выполняется переименование таблиц, эволюция схемы не поддерживается. В этом случае необходимо обновить метаданные перед подготовкой задачи.
В процессе разработки задачи необходимо обновить браузер, чтобы получить изменения эволюции схемы. Можно настроить уведомления, чтобы получать оповещения об изменениях.
В задачах промежуточного хранения отбрасывание столбцов не поддерживается. Отбрасывание и добавление столбца приведет к ошибке таблицы.
В задачах промежуточного хранения операция DROP TABLE (ОТБРОСИТЬ ТАБЛИЦУ) не приведет к отбрасыванию таблицы. Удаление таблицы и последующее добавление таблицы приводит лишь к тому, что старая таблица усекается, а новая таблица не добавляется.
Изменение длины столбца возможно не для всех целей в зависимости от поддержки в целевой базе данных.
Если имя столбца изменено, явные преобразования, определенные с помощью этого столбца, не будут выполняться, так как они основаны на имени столбца.
Ограничения, действующие при обновлении метаданных, также распространяются и на эволюцию схем.
Если задача содержит изменения дизайна, которые еще не были подготовлены, и при запуске задачи обнаруживаются изменения эволюции исходной схемы, задача будет остановлена во избежание конфликтов. Подготовьте ожидающие изменения дизайна и запустите задачу снова.

При захвате изменений DDL действуют следующие ограничения:

Когда в исходной базе данных происходит быстрая последовательность операций (например, DDL>DML>DDL), Qlik Talend Data Integration может разобрать журнал в неправильном порядке, что приведет к отсутствию данных или непредсказуемому поведению. Чтобы свести к минимуму такую вероятность, лучше всего подождать, пока изменения будут применены к цели, и только после этого выполнять следующую операцию.

Например, если исходная таблица переименовывается несколько раз подряд в течение короткого интервала времени (и вторая операция переименования возвращает ей исходное имя), во время захвата изменений может появиться сообщение об ошибке, что таблица уже существует в целевой базе данных.
Если выполняется переименование таблицы, используемой в задаче, а затем эта задача останавливается, Qlik Talend Data Integration не захватит изменения, внесенные в эту таблицу после возобновления задачи.
Переименование исходной таблицы, пока задача остановлена, не поддерживается.
Перераспределение столбцов первичного ключа таблицы не поддерживается (и поэтому не записывается в управляющую таблицу DDL History).
Если тип данных столбца изменен, а затем выполняется переименование этого же столбца, пока задание остановлено, изменение DDL отражается в управляющей таблице DDL History как Drop Column (Отбросить столбец), а затем Add Column (Добавить столбец), когда задача возобновляется. Обратите внимание, что такое же поведение может наблюдаться и в результате длительной задержки.
Операции CREATE TABLE (СОЗДАТЬ ТАБЛИЦУ), выполненные в источнике, пока задача остановлена, будут применены к цели при возобновлении задачи, но не будут записаны как DDL в управляющей таблице DDL History.
Операции, связанные с изменением метаданных (такие как ALTER TABLE (ИЗМЕНИТЬ ТАБЛИЦУ), реорганизация, перестройка кластеризованного индекса и т. д.), могут вызывать непредсказуемое поведение, если они были выполнены:
- Во время полной загрузки
  
  -ИЛИ-
- Между меткой времени Начать обработку изменений с и текущим временем (т. е. моментом, когда пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска).
  
  Пример:
  
  ЕСЛИ:
  
  Указанное время Начать обработку изменений с ― 10:00.
  
  И:
  
  Столбец с именем Age (Возраст) добавляется в таблицу Employees (Сотрудники) в 10:10 утра.
  
  И:
  
  Пользователь нажимает кнопку OK в диалоговом окне Расширенные параметры запуска в 10:15 утра.
  
  ТО:
  
  Изменения, которые произошли между 10:00 и 10:10, могут привести к ошибкам CDC.
Примечание к информации
В любом из вышеперечисленных случаев необходимо перезагрузить затронутые таблицы, чтобы данные были правильно перенесены (перенесено) в цель.

Оператор DDL ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> не реплицирует значение по умолчанию в цель, и новый/измененный столбец получает значение NULL. Обратите внимание, что это может произойти, даже если DDL, добавивший/изменивший столбец, был выполнен в прошлом. Если новый/измененный столбец допускает нулевые значения, конечная точка источника обновляет все строки таблицы, прежде чем регистрировать сам DDL. В результате Qlik Talend Data Integration захватывает изменения, но не обновляет цель. Поскольку новый/измененный столбец получает значение NULL, то если целевая таблица не имеет столбца первичного ключа/уникального индекса, при последующих обновлениях будет появляться сообщение «Затронуто строк: 0».
Изменения в столбцах с точными данными TIMESTAMP (МЕТКА ВРЕМЕНИ) и DATE (ДАТА) не будут захватываться.

Изменение шлюза или подключений

При изменении целевого или исходного подключения, или исходного шлюза, необходимо заново создать таблицы.

Просмотр информации о задаче

Нажмите Сведения на панели меню, чтобы просмотреть информацию о задаче, например:

Владелец
Пространство
Платформа данных
Идентификатор проекта
Идентификатор выполнения задачи данных

Ограничения и замечания при промежуточном хранении данных в озере данных

В отношении преобразований действуют следующие ограничения:

Преобразования не поддерживаются для столбцов на языках с письмом справа налево.
Невозможно выполнять преобразования в столбцах, в имени которых есть специальные символы (например, #, \, /, -).
Единственное поддерживаемое преобразование для типов данных LOB/CLOB ― это отбрасывание столбца в целевой таблице.
Не поддерживается использование преобразования с целью переименования столбца и последующего добавления нового столбца с тем же именем.

Изменение допустимости нулевых значений не поддерживается в столбцах, которые перемещены путем непосредственного изменения или с использованием правила преобразования. Однако новые столбцы, создаваемые в задаче, допускают нулевые значения по умолчанию.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь