Перейти к основному содержимому Перейти к дополнительному содержимому

Подключение данных

Подключение данных – это первый шаг, необходимый для создания конвейера данных в проекте Qlik Talend Data Integration. В этом случае данные передаются из источника данных и наборы данных сохраняются в формате, оптимизированном для чтения. Можно обновлять данные путем непрерывной обработки изменений или использовать запланированные перезагрузки.

Создание подключения данных производится за одну отдельную операцию, однако выполнение производится за два действия.

  • Промежуточное хранение данных

    Это подразумевает непрерывный перенос данных из локального источника данных в область промежуточного хранения с использованием задачи промежуточного хранения данных.

    Промежуточное хранение данных, полученных из источников данных

  • Хранение наборов данных

    Это подразумевает чтение начальной загрузки данных для промежуточного хранения или инкрементальных загрузок, а также применение данных в оптимизированном для чтения формате с использованием задачи хранения данных.

    Хранение наборов данных

При наличии подключенных данных сохраненные наборы данных можно использовать разными способами.

  • Наборы данных можно использовать в аналитическом приложении.

  • Можно создавать преобразования.

  • Можно создать киоск данных.

Подключить данные

Подключение данных запускается в проекте. Наборы данных сохраняются в облачном хранилище данных, указанном в проекте. Для получения дополнительной информации о проектах см. раздел Создание конвейера данных.

  1. В проекте нажмите Добавить новый и Подключить данные.

    Примечание к подсказкеТакже можно щелкнуть на существующем источнике в проекте и затем выбрать Подключить данные.
  2. Введите Имя и Описание для подключения.

    Нажмите Далее.

  3. Выберите подключение источника.

    Можно выбрать существующее подключение источника или создать новое подключение к источнику.

    Для получения дополнительной информации см. раздел Настройка подключений к источникам данных.

    Нажмите Далее.

  4. Выберите данные для загрузки.

    Для получения дополнительной информации см. раздел Выбор данных.

    Нажмите Далее.

    Откроется окно Параметры, в котором можно выбрать метод обновления и параметры истории.

  5. Выберите метод, который будет использоваться для обновления данных, в разделе Метод обновления.

    • Захват изменений данных (CDC)

      Если данные также содержат таблицы, которые не поддерживают CDC, или виды, будет создано два конвейера данных. Один конвейер данных со всеми таблицами, поддерживающими CDC, и второй конвейер с остальными таблицами и видами, которые используют режим Перезагрузка и сравнение.

    • Перезагрузка и сравнение

  6. В разделе Журнал выберите, нужно ли реплицировать историю предшествующих данных в дополнение к текущим.

    По окончании нажмите Далее.

  7. Если не используется Data Movement Gateway для доступа к источнику данных, следующий раздел будет отображаться в параметрах:

    • Репликация данных каждые: Можно запланировать, как часто должны захватываться изменения из источника данных, и задать Время начала и Дату начала. Если исходные наборы данных поддерживают CDC (Захват изменений данных), только изменения в исходных данных будут реплицированы в соответствующие целевые таблицы. Если исходные наборы данных не поддерживают CDC (например, «Виды»), изменения будут применены путем перезагрузки всех исходных данных в соответствующие целевые таблицы. Если одни исходные наборы данных поддерживают CDC, а другие нет, будут созданы две подзадачи: одна для перезагрузки наборов данных, которые не поддерживают CDC, а другая для захвата изменений наборов данных, не поддерживающих CDC.

      Мастер настройки подключения позволяет запланировать интервал, равный одному часу. После завершения мастера подключения можно изучить различные варианты планирования, как описано в Планирование задач при работе без Data Movement Gateway.

    Для получения информации о минимальных интервалах планирования в зависимости от типа источника данных и уровня подписки см. раздел Минимально допустимые интервалы планирования.

  8. Проверьте задачи данных, созданные для подключения данных, и, если нужно, переименуйте.

    Примечание к подсказкеЭти имена используются при присвоении имен схемам баз данных в хранилище. Так как одна схема может иметь ассоциироваться только с одной задачей, рекомендуется использовать уникальные имена, чтобы избежать конфликтов с ресурсами данных в других проектах, использующих эту же платформу.
  9. Выберите, нужно ли открыть любую из созданных задач данных или вернуться в проект.

    По завершении нажмите кнопку Готово.

Задачи подключения данных созданы. Чтобы начать репликацию данных, необходимо:

Выбор данных

Можно выбрать определенные таблицы или виды, а также использовать правила выбора для включения или исключения групп таблиц.

Примечание к информацииCDC не поддерживается для видов.

Чтобы задать критерий выборки для схем и таблиц, используйте знак подстановки %.

  • %.% позволяет выбрать все таблицы во всех схемах.

  • Public.% определяет все таблицы в схеме Public.

Критерий выбора позволяет просмотреть результат в зависимости от выбранных условий.

Можно выполнить любое из действий:

  • Создать правило для включения или исключения группы таблиц, удовлетворяющих критерию выбора.

    Нажмите Добавить правило из критериев выбора, чтобы добавить правило, и выберите Включить или Исключить.

    Правила отображаются в разделе Правило выбора.

  • Выберите один или несколько наборов данных и нажмите Добавить выбранные наборы данных.

    Добавленные наборы данных отображаются в Явно выбранные наборы данных.

Правила выбора применяются только к текущему набору таблиц и видов, однако они не будут применяться к таблицам и видам, добавляемым позже.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!