Поток данных AWS S3
Подключитесь к своему потоку данных AWS S3, чтобы использовать его в качестве источника данных в своих проектах Открытое озеро данных Qlik. Подключения к потоку данных AWS S3 можно использовать только с задачей потокового промежуточного хранения и задачей потокового преобразования.
В отличие от традиционного пакетного ETL из S3, эта реализация рассматривает S3 как потоковый источник с непрерывным мониторингом и приемом данных практически в реальном времени. Можно настроить потоки для автоматического приема данных из блоков S3 по мере поступления новых файлов. Поток данных AWS S3 позволяет настраивать конвейеры потоковой передачи данных из S3, включая сопоставление шаблонов файлов, конфигурацию схемы и параметры первоначального заполнения. Поток непрерывно отслеживает S3 и принимает новые данные почти в реальном времени (в течение нескольких минут), что идеально подходит для организационных данных, таких как журналы, события, экспорты из внешних систем или потоки данных партнеров.
Необходимые условия
Для создания подключения к потоку данных AWS S3 требуется следующее:
-
Если вы используете аутентификацию на основе ролей для доступа к блоку, вам необходимо:
-
Разрешение на доступ к сетевой интеграции, которую вы хотите использовать для подключения.
-
Роль ARN, или вы можете создать ее в процессе настройки. Кластер сетевой интеграции должен иметь доступ к учетной записи ARN S3.
-
-
Если вы используете аутентификацию по ключу доступа для подключения к блоку, вам потребуется:
-
Идентификатор ключа доступа AWS.
-
Ваш секретный ключ доступа AWS.
-
Настройка свойств подключения потока данных S3
Чтобы настроить подключение S3, выполните следующие действия:
-
В виде Подключения нажмите Создать подключение.
-
Выберите Пространство, где вы хотите создать подключение, или выберите Создать новое пространство данных.
-
Выберите S3 из списка Имя коннектора или используйте поле Поиск. Убедитесь, что Тип — Источник, а Категория — Потоковая передача.
-
В поле URI S3 введите URI для вашего блока S3 в формате s3://<bucket-name>/<directory-name>.
Для получения дополнительной информации см. Примеры синтаксиса.
-
В поле Тип аутентификации выберите способ подключения и настройте параметры.
На основе ролей
Выполните следующие шаги для использования аутентификации на основе ролей.
Создать роль ARN
-
Сетевая интеграция: Выберите сетевую интеграцию из списка.
-
Роль ARN: Введите роль ARN, созданную в AWS. Это должно быть в формате arn:aws:iam::{account number}:role/{role name}.
Создайте роль AWS
Выполните следующие шаги для создания роли AWS:
-
Создать роль
-
В консоли AWS перейдите в IAM.
-
В разделе Roles (Роли) нажмите Create role (Создать роль) и настройте роль:
-
Trusted entity type (Тип доверенной сущности): выберите Custom trust policy (Настраиваемая политика доверия).
-
Оператор: Скопируйте политику Trusted entity, созданную в Create an AWS role в Qlik Cloud, в область кода в AWS.
-
Создайте роль.
-
-
Создать встроенную политику
-
В AWS Console, в Roles, щелкните роль, созданную на шаге 1.
-
В Политики разрешений нажмите Добавить разрешения > Создать встроенную политику.
-
Скопируйте код в Qlik Cloud и вставьте его в политику в AWS.
-
-
Скопировать роль ARN
-
На странице ролей в консоли AWS найдите значение ARN в разделе «Сводка».
-
Скопируйте ARN и вставьте его в роль ARN в Qlik Cloud.
-
Ключ доступа
Выполните следующие шаги, чтобы использовать ключ доступа для аутентификации вашего подключения:
-
Access key: Введите уникальный идентификатор ключа доступа AWS для использования при аутентификации.
-
Секретный ключ: Введите свой секретный ключ доступа AWS для использования с вашим ключом доступа.
- Создать политику
-
В консоли AWS перейдите в IAM.
-
Перейдите в Политики> Создать политику.
-
В Qlik Cloud, в диалоговом окне Создать роль AWS скопируйте политику.
-
В AWS, в редакторе политик, вставьте политику.
-
-
Прикрепить новую политику к пользователю
-
Прикрепите новую политику к пользователю, которому вы хотите предоставить доступ.
-
Создать подключение
Когда вы настроили свой метод безопасности, выполните следующие шаги для создания подключения:
-
В Имя введите отображаемое имя для подключения, например, My AWS S3 Streaming Source connection.
-
Нажмите Проверить подключение для проверки учетных данных.
-
Нажмите Создать.
Примеры синтаксиса
| Синтаксис | Описание | Пример |
|---|---|---|
| Текст | Общий текстовый/строковый ввод на основе рекомендаций AWS по именованию объектов Amazon S3. | s3://MyS3Bucket/MyDir/MyFile.csv |
| Знак подстановки | Символ *, который действует как «знак подстановки» в пути/имени файла. Использование знака подстановки в пути включает все папки и подпапки из этого пути. | myS3Bucket/myDir/* myS3Bucket/myDir/*.csv myS3Bucket/myDir/*_customers.csv myS3Bucket/regions/*/*_customers.csv |
| Образец | Синтаксис шаблона даты указывает местоположение шаблона даты в имени файла. | myS3Bucket/myDir/<yyyy>_<MM>_<dd>_<HH>_<mm>_orders.csv myS3Bucket/myDir/<yyyy>/<MM>/<dd>/<HH>_<mm>_orders.csv |
Правила именования целевого набора данных
Имя целевого набора данных должно:
-
Быть уникальным и не использоваться в других наборах данных в целевом каталоге.
-
Отвечать правилам именования в целевом каталоге:
-
Начинаться с буквы (A–Z, a–z) или символа подчеркивания (_).
-
Содержать только буквы, символы подчеркивания, цифры (0–9) или знак доллара ($).
-
Не превышать 255 символов, включая пробелы.
-