Перейти к основному содержимому Перейти к дополнительному содержимому

Регистрация данных, которые уже существуют в пределах платформы данных

Можно зарегистрировать данные, которые уже существуют на платформе данных, чтобы курировать и преобразовывать данные, а также создавать киоски данных. Это позволяет использовать данные, добавленные в систему не только с помощью Qlik Talend Data Integration, но другими средствами, такими как Qlik Replicate или Stitch.

При регистрации данных создаются две задачи данных.

  • Зарегистрированные данные

    Регистрация данных включает создание видов для подготовки данных к созданию наборов данных.

  • Хранение

    Это включает создание и сохранение наборов данных на основе зарегистрированных данных.

    Хранение наборов данных

При наличии зарегистрированных данных полученные наборы данных можно использовать разными способами.

  • Наборы данных можно использовать в аналитическом приложении.

  • Можно создавать преобразования.

  • Можно создать киоск данных.

Зарегистрировать данные

Можно регистрировать данные, которые существуют в облачном хранилище данных, определенном в проекте. Созданные наборы данных будут сохранены в том же облачном хранилище данных.

Для получения дополнительной информации о проектах см. раздел Создание конвейера данных.

  1. Нажмите Добавить и выберите Зарегистрировать данные в проекте.

  2. Введите Имя и Описание для задачи данных.

    Нажмите Далее.

  3. Выберите данные для регистрации.

    Выбор данных для включения

    Нажмите Далее.

    Отобразится диалоговое окно Параметры.

  4. Выберите способ обновления данных в списке Метод обновления.

    Выберите Инкрементальное с использованием верхнего предела, если данные реплицированы средствами Qlik Replicate или Stitch.

    • Используйте Инкрементальное с использованием верхнего предела, чтобы обрабатывать изменения инкрементально с использованием шаблона верхнего предела. Это рекомендуемый метод в случаях, когда репликация данных выполняется с помощью Qlik Replicate (с включенным параметром Полная загрузка и сохранение изменений) или Stitch.

      Для получения дополнительной информации см. раздел Метод обновления.

    • Используйте Сравнить с текущим хранилищем, когда данные загружаются только один раз или обновляются путем полной перезагрузки.

  5. Проверьте две задачи данных, созданные в виде «Сводка», и, если нужно, переименуйте.

    Примечание к подсказкеЭти имена используются при присвоении имен схемам баз данных в задаче данных хранилища. Так как одна схема может ассоциироваться только с одной задачей, рекомендуется использовать уникальные имена, чтобы избежать конфликтов с задачами данных в других проектах, использующих эту же платформу.
  6. Выберите, нужно ли открыть задачу зарегистрированных данных, или вернитесь в проект.

    По завершении нажмите кнопку Готово.

Теперь созданы две задачи данных. Чтобы начать репликацию данных, необходимо:

  • Подготовьте задачу зарегистрированных данных.

    Нажмите Подготовить в задаче данных.

    Когда создаются артефакты, задача данных имеет состояние Зарегистрировано.

  • подготовить и запустить задачу хранения данных.

    Для получения дополнительной информации см. раздел Хранение наборов данных.

Выбор данных для включения

Выбирая данные для включения, можно указать определенные таблицы или виды, а также использовать правила выбора для включения или исключения групп таблиц.

Чтобы задать критерий выборки для схем и таблиц, используйте знак подстановки %.

  • %.% позволяет выбрать все таблицы во всех схемах.

  • Public.% определяет все таблицы в схеме Public.

Критерий выбора позволяет просмотреть результат в зависимости от выбранных условий.

Можно выполнить любое из действий:

  • Создать правило для включения или исключения группы таблиц, удовлетворяющих критерию выбора.

    Нажмите Добавить правило из критериев выбора, чтобы добавить правило, и выберите Включить или Исключить.

    Правила отображаются в разделе Правило выбора.

  • Выберите один или несколько наборов данных и нажмите Добавить выбранные наборы данных.

    Добавленные наборы данных отображаются в Явно выбранные наборы данных.

Правила выбора применяются только к текущему набору таблиц и видов, однако они не будут применяться к таблицам и видам, добавляемым позже.

Обновление метаданных

Можно обновить метаданные в задаче в соответствии с изменениями метаданных источника в виде Дизайн задачи. Для приложений SaaS, использующих Metadata Manager, необходимо обновить Metadata Manager, прежде чем обновлять метаданные в задаче данных.

Примечание к информацииЭта операция затрагивает только таблицы в виде Дизайн задачи.
  1. Можно либо:

    • Щелкните ..., а затем Обновить метаданные, чтобы обновить метаданные для всех наборов данных в задаче.

    • Щелкните ... для набора данных в списке Наборы данных, а затем Обновить метаданные, чтобы обновить метаданные для одного набора данных.

    Можно просмотреть статус обновления метаданных в области Обновить метаданные в нижней части экрана. Чтобы увидеть время последнего обновления метаданных, наведите указатель мыши на кнопка «информация».

  2. Подготовьте задачу данных, чтобы применить изменения.

    После того как задача данных подготовлена, а изменения применены, изменения удаляются из области Обновить метаданные.

Необходимо подготовить задачи хранения, которые используют эту задачу для распространения изменений

Если столбец удаляется, добавляется преобразование с нулевыми значениями (Null), чтобы исключить потерю исторических данных при хранении

Ограничения при обновлении метаданных

  • Если выполняется переименование столбца, а предшествующий столбец отбрасывается, эта задача преобразуется в переименование отброшенного столбца, если эти столбцы имеют одинаковые тип и длину данных.

    Пример:  

    До: a b c d

    После: a c1 d

    В этом примере столбец b отбрасывался, а c переименован в c1, при этом b и c имеют одинаковые тип и длину данных.

    Это будет идентифицировано как переименование b в c1 и отбрасывание c.

  • Переименование последнего столбца не распознается, даже если он отброшен, а предшествующий столбец переименован.

    Пример:  

    До: a b c d

    После: a b c1

    В этом примере столбец d отброшен, а c переименован в c1.

    Это будет идентифицировано как отбрасывание c и d, и добавление c1.

  • Предполагается, что новые столбцы добавляются в конце. Если столбцы добавляются в середине с тем же типом данных, что и следующий столбец, эти задачи могут быть интерпретированы как отбрасывание и переименование.

Параметры зарегистрированных данных

Можно задать свойства для задачи зарегистрированных данных.

  • Нажмите Параметры.

Общие параметры

  • База данных

    Целевая база данных.

  • Схема задачи

    Можно изменить имя схемы задачи данных.

  • Префикс для всех таблиц и видов

    Можно задать префикс для всех таблиц и видов, создаваемых с помощью этой задачи.

    Примечание к информацииНеобходимо использовать уникальный префикс, когда требуется использовать схему базы данных в нескольких задачах данных.

Метод обновления

Обнаружение изменений

  • Используйте Сравнить с текущим хранилищем, когда данные загружаются только один раз или обновляются путем полной перезагрузки.

  • Используйте Инкрементальное с использованием верхнего предела, чтобы обрабатывать изменения инкрементально с использованием метода верхнего предела.

    Этот параметр требует, чтобы для всех таблиц был определен первичный ключ. Первичный ключ можно определить вручную в виде Наборы данных для таблиц без первичного ключа.

Параметры инкрементальной загрузки

Эти параметры доступны, когда выбран вариант Инкрементальное с использованием верхнего предела.

  • Если репликация данных выполняется с помощью задачи Qlik Replicate с параметром «Полная загрузка и сохранение изменений», задайте в области Параметры инкрементальной загрузки Qlik Replicateпараметры.

  • Если репликация данных выполняется с использованием конвейера данных Stitch и в исходных таблицах определен первичный ключ, задайте параметру Параметры инкрементальной загрузки значение Параметры Stitch по умолчанию.

  • В противном случае задайте для настройки Параметры инкрементальной загрузки значение Пользовательские и определите параметры самостоятельно.

Параметры инкрементальной загрузки
Параметр Пользовательские Параметры Qlik Replicate Параметры Stitch по умолчанию
Таблицы изменений

Если изменения находятся в одной и той же таблице, установите флажок Изменения в одной таблице.

Если нет, снимите флажок Изменения в одной таблице и задайте шаблон таблицы изменений в поле Шаблон таблицы изменений.

${SOURCE_TABLE_NAME}__ct table Изменения в одной таблице
Столбец предела Задайте имя столбца предела в поле Имя. header__change_seq _SDC_BATCHED_AT
Столбец «Дата начала»

Поле «Дата начала» можно заполнить, указав время начала пакета или используя выбранный столбец.

Если выбран вариант Выбранный столбец «Дата начала», необходимо определить Шаблон столбца «Дата начала».

header__timestamp _SDC_BATCHED_AT

Это можно изменить, указав в поле «Дата начала» время начала пакета или выбрав другой столбец.

Обратимые удаления

В изменения можно включить обратимые удаления, установив флажок Изменения включают обратимые удаления и задав определение выражения индикации.

Выражение индикации должно принимать значение «Истина», если изменение является обратимым удалением.

Пример: ${is_deleted} = 1

${header__change_oper} = 'D'

В изменения можно включить обратимые удаления, установив флажок Изменения включают обратимые удаления и задав определение выражения индикации.

Выражение индикации должно принимать значение «Истина», если изменение является обратимым удалением.

Пример: ${is_deleted} = 1

Предыдущий образ

Можно отфильтровать записи предыдущего образа в таблицах изменений, установив флажок Предыдущий образ и определив выражение индикации.

Выражение индикации должно принимать значение «Истина», если строка содержит образ до обновления.

Пример: ${header__change_oper} = 'B'

${header__change_oper} = 'B' В данных отсутствуют записи предыдущих образов.

Параметры каталога

  • Опубликовать в каталоге

    Установите этот флажок, чтобы опубликовать эту версию данных в Каталог как набор данных. Содержимое каталога будет обновлено в следующий раз при подготовке этого задания.

Для получения дополнительной информации о каталоге см. раздел Изучение данных с помощью инструментов каталогизации.

Рекомендуемая конфигурация Qlik Replicate

Эти параметры задачи Qlik Replicate рекомендуются при регистрации данных, репликация которых выполняется с использованием задачи Qlik Replicate для сохранения изменений.

  • В конфигурации задачи Qlik Replicate необходимо включить параметры Полная загрузка и Сохранить изменения.

  • Выберите Параметры сохранения изменений > Таблицы изменений и убедитесь, что включены следующие столбцы таблицы изменений с именами по умолчанию:

    • [header__]change_seq

    • [header__]change_oper

    • [header__] timestamp

  • Выберите Параметры сохранения изменений > Таблицы изменений и задайте параметру При UPDATE значение Сохранить только после создания образа.

    Это уменьшает потребление пространства для каждого обновления, так как исходный образ не включается. Используйте этот параметр, если не планируете использовать исходный образ.

  • Выберите Параметры сохранения изменений > Таблицы изменений и задайте параметру Суффикс значение по умолчанию __ct.

  • Не применяйте следующие глобальные преобразования:

    • Переименование таблицы изменений

    • Переименование схемы таблицы изменений

  • Если первичный ключ в исходной таблице доступен для обновления, включите DELETE и INSERT при обновлении параметра столбца первичного ключа на вкладке Настройка обработки изменений.

    История старой записи не будет сохранена в новой записи.

    Примечание к информацииЭтот параметр поддерживается начиная с версии Qlik Replicate November 2022.

Операции с задачей зарегистрированных данных

Можно выполнять следующие операции с задачей зарегистрированных данных в меню задачи.

  • Открыть

    Это открывает задачу данных. Можно просмотреть структуру таблицы и сведения о задаче данных.

  • Изменить

    Можно изменить имя и описание задачи, а также добавить теги.

  • Удалить

    Можно удалить задачу данных.

    Исходные данные не удаляются.

  • Синхронизировать наборы данных

    Синхронизация изменений проекта, которые нельзя исправить автоматически.

  • Воссоздание таблиц

    Воссоздание наборов данных из источника.

  • Хранить данные

    Можно создать задачу хранения данных, которая использует данные из задачи промежуточного хранения данных.

Исторические аспекты при настройке столбца «Дата начала»

Если в последующую задачу включены исторические данные и используется столбец «Дата начала», регистрация записей задним числом не поддерживается. Это означает, что если пакет изменений содержит более старую версию записи, которая отсутствует в хранилище, пакет изменения также должен включать все более поздние версии записи. Если более новые версии не включены, они будут удалены.

В этих примерах хранилище содержит эти записи от начала:

Дата начала Имя Город
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

Пример 1:  

Если вставляется следующий пакет изменений:

Дата начала Имя Город
4/Oct/2023 Joe Paris

Ожидаемый результат в хранилище:

Дата начала Имя Город
2/Oct/2023 Joe New York
3/Oct/2023 Joe London
4/Oct/2023 Joe Paris

Пример 2:  

Но если вставляется следующая более ранняя запись в пакете изменений:

Дата начала Имя Город
1/Oct/2023 Joe Berlin

Это приводит к удалению более новых записей из хранилища:

Дата начала Имя Город
1/Oct/2023 Joe Berlin

Пример 3:  

Чтобы сохранить историю, пакет изменений должен включать более новые записи:

Дата начала Имя Город
1/Oct/2023 Joe Berlin
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

Это также обеспечит ведение истории в хранилище:

Дата начала Имя Город
1/Oct/2023 Joe Berlin
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

Замечания

  • Не используйте параметр истории при репликации Stitch. Используйте параметры для сохранения исторических данных в Qlik Talend Data Integration.

Замечания относительно объема данных

  • Если зарегистрированная таблица не имеет первичного ключа, то при каждом запуске будет выполняться полная перезагрузка. Это будет учитываться при расчете ежемесячной квоты на объем зарегистрированных данных. Это связано с тем, что хранилищу необходимо сравнить все записи, чтобы найти изменения.

  • Объем зарегистрированных данных рассчитывается в хранилище. Это означает, что удаление зарегистрированных данных преобразуется в вставку или обновление хранилища (обратимое удаление) и учитывается в объеме данных.

  • Обратимые удаления, вставки и обновления учитываются в объеме данных дважды, если таблица с зарегистрированными данными используется в двух задачах хранения данных.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!