Подключение данных
Подключение данных – это первый шаг, необходимый для создания конвейера данных в проекте Qlik Talend Data Integration. В этом случае данные передаются из источника данных и наборы данных сохраняются в формате, оптимизированном для чтения. Можно обновлять данные путем непрерывной обработки изменений или использовать запланированные перезагрузки.
Создание подключения данных производится за одну отдельную операцию, однако выполнение производится за два действия.
-
Промежуточное хранение данных
Это подразумевает непрерывный перенос данных из локального источника данных в область промежуточного хранения с использованием задачи промежуточного хранения данных.
Промежуточное хранение данных, полученных из источников данных
-
Хранение наборов данных
Это подразумевает чтение начальной загрузки данных для промежуточного хранения или инкрементальных загрузок, а также применение данных в оптимизированном для чтения формате с использованием задачи хранения данных.
При наличии подключенных данных сохраненные наборы данных можно использовать разными способами.
-
Наборы данных можно использовать в аналитическом приложении.
-
Можно создавать преобразования.
-
Можно создать киоск данных.
Подключить данные
Подключение данных запускается в проекте. Наборы данных сохраняются в облачном хранилище данных, указанном в проекте. Для получения дополнительной информации о проектах см. раздел Создание конвейера данных.
-
В проекте нажмите Добавить новый и Подключить данные.
Примечание к подсказкеТакже можно щелкнуть на существующем источнике в проекте и затем выбрать Подключить данные. -
Введите Имя и Описание для подключения.
Нажмите Далее.
-
Выберите подключение источника.
Можно выбрать существующее подключение источника или создать новое подключение к источнику.
Для получения дополнительной информации см. раздел Настройка подключений к источникам данных.
Нажмите Далее.
-
Выберите данные для загрузки.
Для получения дополнительной информации см. раздел Выбор данных.
Нажмите Далее.
Откроется окно Параметры, в котором можно выбрать метод обновления и параметры истории.
-
Выберите метод, который будет использоваться для обновления данных, в разделе Метод обновления.
-
Захват изменений данных (CDC)
Если данные также содержат таблицы, которые не поддерживают CDC, или виды, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка и сравнение.
-
Перезагрузка и сравнение
-
-
В разделе Журнал выберите, нужно ли реплицировать историю предшествующих данных в дополнение к текущим.
По окончании нажмите Далее.
-
Если не используется Data Movement Gateway для доступа к источнику данных, следующий раздел будет отображаться в параметрах:
Планировщик репликаций
-
Репликация данных каждые: Можно запланировать, как часто должны захватываться изменения из источника данных, и задать Время начала и Дату начала. Если исходные наборы данных поддерживают CDC (Захват изменений данных), только изменения в исходных данных будут реплицированы в соответствующие целевые таблицы. Если исходные наборы данных не поддерживают CDC (например, «Виды»), изменения будут применены путем перезагрузки всех исходных данных в соответствующие целевые таблицы. Если одни исходные наборы данных поддерживают CDC, а другие нет, будут созданы две подзадачи: одна для перезагрузки наборов данных, которые не поддерживают CDC, а другая для захвата изменений наборов данных, не поддерживающих CDC.
Мастер настройки подключения позволяет запланировать интервал, равный одному часу. После завершения мастера подключения можно изучить различные варианты планирования, как описано в Планирование задач при работе без Data Movement Gateway.
Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.
-
-
Проверьте задачи данных, созданные для подключения данных, и, если нужно, переименуйте.
Примечание к подсказкеЭти имена используются при присвоении имен схемам баз данных в хранилище. Так как одна схема может иметь ассоциироваться только с одной задачей, рекомендуется использовать уникальные имена, чтобы избежать конфликтов с ресурсами данных в других проектах, использующих эту же платформу. -
Выберите, нужно ли открыть любую из созданных задач данных или вернуться в проект.
По завершении нажмите кнопку Готово.
Задачи подключения данных созданы. Чтобы начать репликацию данных, необходимо:
-
подготовить и запустить задачу промежуточного хранения данных.
Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.
-
подготовить и запустить задачу хранения данных.
Для получения дополнительной информации см. раздел Хранение наборов данных.
Выбор данных
Можно выбрать определенные таблицы или виды, а также использовать правила выбора для включения или исключения групп таблиц.
Чтобы задать критерий выборки для схем и таблиц, используйте знак подстановки %.
-
%.% позволяет выбрать все таблицы во всех схемах.
-
Public.% определяет все таблицы в схеме Public.
Критерий выбора позволяет просмотреть результат в зависимости от выбранных условий.
Можно выполнить любое из действий:
-
Создать правило для включения или исключения группы таблиц, удовлетворяющих критерию выбора.
Нажмите Добавить правило из критериев выбора, чтобы добавить правило, и выберите Включить или Исключить.
Правила отображаются в разделе Правило выбора.
-
Выберите один или несколько наборов данных и нажмите Добавить выбранные наборы данных.
Добавленные наборы данных отображаются в Явно выбранные наборы данных.
Правила выбора применяются только к текущему набору таблиц и видов, однако они не будут применяться к таблицам и видам, добавляемым позже.