Azure Data Lake Storage
Azure Data Lake Storage можно использовать как:
- облачную промежуточную область при использовании Databricks, Microsoft Fabric или Azure Synapse Analytics в качестве цели конвейера данных; Облачная промежуточная область — место, куда помещаются данные и изменения до того, как они будут применены и сохранены.
-
Цель в задаче репликации.
- Для получения инструкций по репликации данных в Azure Data Lake Storage с использованием подписок Standard, Premium и Enterprise см. раздел Промежуточное хранилище данных в озере данных при использовании подписки Standard, Premium или Enterprise.
- Для получения инструкций по репликации данных в Azure Data Lake Storage с использованием подписки Starter см. раздел Репликация данных с использованием подписки Qlik Talend Cloud Starter.
Ограничения и замечания
Действуют следующие ограничения:
- Режим LOB без ограничений не поддерживается.
- Имена баз данных, схем или таблиц, содержащие косую черту (/) или обратную косую черту (\), не поддерживаются.
Разрешения для хранилища
Клиент Azure Active Directory, указанный в параметрах коннектора должен иметь следующие разрешения для хранилища ADLS Gen2.
- В контейнере хранилища: LIST
- В папке хранилищ: READ, WRITE и DELETE
- В настройках доступа (IAM) к файловой системе ADLS Gen2 необходимо присвоить Replicate (AD App ID) роль «Storage Blob Data Contributor» (Донор данных Blob хранилища). Обработка роли может занять несколько минут.
Настройка свойств подключения Azure Data Lake Storage
Чтобы настроить коннектор, выполните следующие действия:
-
Нажмите Создать подключение в виде Подключения.
-
Выберите коннектор цели Azure Data Lake Storage , а затем задайте следующие настройки.
Цель данных
Шлюз данных: Выберите шлюз Data Movement Gateway, который будет использоваться для тестирования подключения к ADLS. Это должен быть тот же Data Movement Gateway, который был развернут для промежуточного хранения данных из источника.
Свойства подключения
-
Учетная запись хранилища (Storage Account)
Имя учетной записи хранилища.
-
Имя контейнера (Container name)
Имя контейнера, который будет использоваться как облачная промежуточная область.
-
Идентификатор клиента Active Directory Azure (Azure Active Directory Tenant ID)
Идентификатор клиента в подписке в Azure Active Directory.
-
Идентификатор клиента регистрации приложения Azure (Azure Application Registration Client ID)
Идентификатор клиента приложения в Azure Active Directory.
-
Секрет регистрации приложения Azure (Azure Application Registration Secret)
Секрет приложения в Azure Active Directory
Имя
Отображаемое имя подключения.
Сопоставление типов данных
В следующей таблице показано используемое по умолчанию сопоставление типов данных Qlik Cloud типам данных Azure Data Lake Storage.
Сопоставление типов данных Qlik Cloud типам данных Azure Data Lake Storage
Типы данных Qlik Cloud | Типы данных цели Azure Data Lake Storage |
---|---|
DATE |
DATE |
TIME |
TIME |
DATETIME |
DATETIME |
BYTES |
BYTES (длина) |
BLOB |
BLOB |
REAL4 |
REAL4 (7) |
REAL8 |
REAL8 (14) |
INT1 |
INT1 (3) |
INT2 |
INT2 (5) |
INT4 |
INT4 (10) |
INT8 |
INT8 (19) |
UINT1 |
UINT1 (3) |
UINT2 |
UINT2 (5) |
UINT4 |
UINT4 (10) |
UINT8 |
UINT8 (20) |
NUMERIC |
NUMERIC (p,s) |
STRING |
STRING (длина) |
WSTRING |
STRING (длина) |
CLOB |
CLOB |
NCLOB |
NCLOB |
BOOLEAN |
BOOLEAN (1) |
Сопоставление типов данных Qlik Cloud типам данных Parquet
Когда Parquet задается в качестве формата файла, вследствие ограниченного количества типов данных, поддерживаемых Parquet, используются сопоставления типов данных, приведенные ниже.
Тип данных Qlik Cloud | Примитивный тип Parquet | Логический тип |
---|---|---|
BOOLEAN |
BOOLEAN |
|
INT1 |
INT32 |
INT(8, true) |
INT2 |
INT32 |
INT(16, true) |
INT4 |
INT32 |
|
INT8 |
INT64 |
|
UINT1 |
INT32 |
INT(8, false) |
UINT2 |
INT32 |
INT(16, false) |
UINT4 |
INT64 |
|
UINT8 |
INT64 |
INT(64, false) |
REAL4 |
FLOAT; |
|
REAL8 |
DOUBLE |
|
NUMERIC |
FIXED_LEN_BYTE_ARRAY (16) |
DECIMAL (точность, масштаб) |
STRING |
BYTE_ARRAY |
STRING |
WSTRING |
BYTE_ARRAY |
STRING |
BYTES |
BYTE_ARRAY |
|
BLOB |
BYTE_ARRAY |
|
CLOB |
BYTE_ARRAY |
STRING |
NCLOB |
BYTE_ARRAY |
STRING |
DATE |
INT32 |
DATE |
TIME |
INT32 |
TIME (UTC=true, unit=MILLIS) |
DATETIME |
INT64 |
TIMESTAMP (UTC=true, unit=MICROS) |