Azure Cloud Storage
Azure Cloud Storage Microsoft'un metin, ikili dosyalar, medya, günlükler ve uygulama yedekleri dahil olmak üzere yapılandırılmamış veriler için yönetilen nesne depolama hizmetidir. Sıcak, soğuk ve arşiv erişim katmanlarını destekler, coğrafi olarak yedekli çoğaltma sunar ve güvenli erişim kontrolü için Microsoft Entra ID (eski adıyla Azure Active Directory) ile entegre olur.
Qlik Talend Cloud hedef depolama hesabı kapsayıcısına okuma erişimi olan bir Microsoft Entra ID uygulaması (hizmet sorumlusu) kullanarak Azure Bulut Depolama'ya bağlanır. Bağlayıcı, belirtilen kapsayıcıdan dosyaları alır, dosya içeriklerini örnekleyerek şemaları otomatik olarak keşfeder ve dosya değişiklik zaman damgalarına göre artımlı veri çoğaltma gerçekleştirir.
Kimlik doğrulamaya hazırlanılıyor
Verilerinize erişmek için, Bağlantı'yı hesap bilgilerinizle kimlik doğrulamanız gerekmektedir.
Azure Bulut Depolama hesabınızı kurmak için şunlara ihtiyacınız var:
- Bir Azure Depolama hesabıyla bir Azure aboneliği.
- Çoğaltılacak dosyaları içeren depolama hesabındaki bir blob kapsayıcı.
- İstemci gizli anahtarına sahip bir Microsoft Entra ID uygulama kaydı.
- Uygulamanın hizmet sorumlusuna atanmış, depolama hesabı veya belirli kapsayıcıya kapsamlandırılmış Depolama Blobu Veri Okuyucusu rolü. Bu, salt okunur erişim için önerilen en az ayrıcalıklı roldür.
Microsoft Entra ID uygulamasını kaydetmek ve kimlik bilgilerinizi edinmek için:
- Azure hesabınızda oturum açın.
- Şuraya gidin: Microsoft Entra ID > Uygulama kayıtları > Yeni kayıt.
- Uygulamanız için aşağıdaki bilgileri girin:
- Ad: Bir ad girin, örneğin QlikDataIntegration.
- Desteklenen hesap türleri: Yalnızca bu kuruluş dizinindeki hesaplar seçin.
- Kaydol'a tıklayın.
- Uygulama Genel Bakış sayfasında, hem Uygulama (istemci) Kimliği hem de Dizin (kiracı) Kimliği'ni kopyalayın ve güvenli bir dosyaya kaydedin.
- Şuraya gidin: Sertifikalar ve sırlar > İstemci sırları > Yeni istemci sırrı.
- Bir açıklama girin ve istemci gizli anahtarı için bir sona erme süresi seçin.
- Ekle'ye tıklayın.
- İstemci gizli değerinizi kopyalayın ve güvenli bir dosyaya kaydedin.
- Azure portalında depolama hesabınızı açın, ardından şuraya gidin: Erişim Denetimi (IAM) > Ekle > Rol ataması ekle.
- Storage Blob Data Reader rolünü seçin ve bu rolü az önce kaydettiğiniz uygulamaya atayın.
- Kaydet'e tıklayın.
Desteklenen dosya biçimleri
- Sınırlandırılmış metin dosyaları:
.csv,.tsv,.psv,.txt(yapılandırılabilir sınırlayıcı ile) - JSON Satırları:
.jsonl - Parke:
.parquet - Avro:
.avro - Excel:
.xlsx(çalışma kitabı başına birden çok çalışma sayfası desteklenir; her sayfanın satırları çoğaltılır ve sayfa adı_sdc_source_filesütununa eklenir) - Gzip sıkıştırılmış dosyalar:
.gz(yukarıdaki formatlardan herhangi birini içeren)
Bağlantı oluşturuluyor
Daha fazla bilgi için bk. SaaS uygulamalarına bağlanma.
- Zorunlu bağlantı özelliklerini doldurun.
-
Bağlantı adı kısmında bağlantı için bir ad sağlayın.
-
Oluşturulduğu zaman bağlantı için meta verileri tanımlamak üzere Bağlantı meta verilerini aç'ı seçin.
-
Oluştur'a tıklayın.
| Ayarlar | Açıklama |
|---|---|
| Veri ağ geçidi |
Kullanım durumunuz gerektiriyorsa bir Veri Hareketi ağ geçidi seçin. Bilgi notu
Qlik Talend Cloud Başlangıç Kılavuzu aboneliği Veri Hareketi ağ geçidi desteklenmediğinden bu alan, söz konusu abonelikle kullanılamaz. Başka bir abonelik kademeniz varsa ve Veri Hareketi ağ geçidi kullanmak istemiyorsanız Hiçbiri'ni seçin. Veri Hareketi ağ geçidi avantajları ve bunu gerektiren kullanım durumları hakkında bilgi için bkz. Qlik Data Gateway - Veri Hareketi. |
| Başlangıç Tarihi |
Verilerin kaynağınızdan hedefinize çoğaltılması gereken tarihi |
| Depolama Hesabı Adı | Azure Depolama hesabının adı, örneğin mystorageaccount https:// veya .blob.core.windows.net olmadan. |
| Kapsayıcı Adı | Blob kapsayıcı adı, örneğin my-container. |
| Kiracı Kimliği | Kiracı Kimliği. |
| Tablolar | Tablo yapılandırması, hangi dosyaların okunduğunu ve içeriklerinin nasıl yorumlandığını belirler. Her tablo tanımı, bir dosya arama deseni, bir tablo adı ve dosya işlemeyi özelleştirmek için isteğe bağlı ayarlar içerir. |
| Müşteri Kimliği | Müşteri Kimliği. |
| İstemci Sırrı | İstemci gizli anahtarı. |
Tablolar yapılandırması
Tablolar yapılandırmasındaki her giriş, kapsayıcıdaki dosyalardan türetilmiş bir mantıksal tabloyu temsil eder. Aşağıdaki özellikler her tablo için yapılandırılabilir:
| Özellik | Zorunlu veya İsteğe Bağlı | Açıklama |
|---|---|---|
| Tablo adı | Gerekli |
Mantıksal tablonun adını belirtin (örneğin, my_orders_csv). Bu, Qlik Talend Cloud içindeki klasör adı olur.
|
| Arama deseni | Gerekli |
Dosya adlarını eşleştirmek için bir düzenli ifade sağlayın (örneğin, .*\.csv$ tüm CSV dosyalarını eşleştirir). Bunu kapsayıcının içindeki dosya adlarına veya belirtilen dizine uygula, eğer sağlanırsa.
|
| Dizin | İsteğe bağlı |
Dosya aramasını daraltmak için kapsayıcı içinde bir klasör yolu öneki girin (örneğin, exports/orders/). Taranan dosyaları sınırlayarak performansı iyileştirin. Bu bir düzenli ifade değildir.
|
| Birincil anahtar | İsteğe bağlı |
Birincil anahtar olarak kullanılacak virgülle ayrılmış sütun adları listesi tanımlayın (örneğin, id veya id,date). CSV dosyaları için başlık alanı adlarını kullanın; JSONL dosyaları için üst düzey nesne anahtarlarını kullanın. Tam tablo çoğaltmayı kullanmak için boş bırakın. Dosya değiştirme zamanına göre artımlı çoğaltmayı etkinleştirmek için doldurun.
|
| Tarih/saat alanlarını belirtin | İsteğe bağlı |
Sütun adlarını virgülle ayırarak listeleyin, şema keşfi sırasında otomatik olarak algılanmasa bile tarih saat alanları olarak işlenecek (örneğin, created_at, updated_at).
|
| Ayırıcı | İsteğe bağlı |
Sınırlandırılmış metin dosyaları için alan ayırıcıyı belirtin. Varsayılan , (virgül)'dür. \t TSV dosyaları için veya | PSV dosyaları için kullanın. Belirtilmezse, ayırıcı dosya genişlemesine göre otomatik olarak algılanır.
|
.jsonlve.csvdosyalarını, doğru şema işleme ve veri tutarlılığı sağlamak için ayrı tablolar olarak yapılandırın.-
Bir arama deseniyle eşleşen tüm
.csvdosyalarının, aynı sütun adları ve sırasıyla tutarlı bir başlık satırı içerdiğinden emin olun. -
Her tablo için tanımlanmış tüm
.jsonldosyalarında tutarlı nesne öznitelik anahtarları kullanın. Anahtar adları ve yapılar, güvenilir şema tespiti için uyumlu olmalı.
Tablolar çoğaltıldı
Tablolar, sağladığınız tablo yapılandırmasında tanımlanır. Her tablo, blob kapsayıcısında bulunan ve belirtilen arama deseniyle ve, uygulanabilirse, dizin önekiyle eşleşen bir dosya kümesine karşılık gelir. Bağlayıcı, tablo şemasını her tablo için en fazla beş dosyayı örnekleyerek, her beşinci satırı okuyarak ve her dosya için en fazla 1.000 kaydı analiz ederek keşfeder.
Çoğaltma, birincil anahtar yapılandırıldığında dosya değişiklik zaman damgalarına dayalı artımlı bir yaklaşım kullanır. Son senkronizasyon yer iminden sonra değiştirilen dosyalar, her ayıklama sırasında işlenir. Birincil anahtar belirtilmezse, tüm tablo her çalıştırmada tamamen çoğaltılır.
Aşağıdaki sistem sütunları her tabloya varsayılan olarak eklenir:
| Sütun | Açıklama |
|---|---|
_sdc_source_container
|
Kaydın kaynaklandığı Azure blob kapsayıcısının adı. |
_sdc_source_file
|
Kaydı içeren dosyanın tam yolu. Excel dosyaları için, sayfa adı eklenir (örneğin, exports/q1.xlsx/Sheet1).
|
_sdc_source_lineno
|
Dosyadaki kaydın satır numarası. |
_sdc_extra
|
Keşfedilen şemayla eşleşmeyen ayrıştırılmış ek alanlar (yalnızca .jsonl dosyaları).
|
Sınırlamalar ve dikkat edilmesi gerekenler
- Depolama hesabı adı, bir URL değil, yalın bir ad olarak sağlanır.
-
Gzip sıkıştırılmış dosyalar (
.gz) desteklenmektedir. Bağlayıcı, iç dosya biçimini belirlemek için orijinal dosya adını gzip başlığından okur.--no-nameile oluşturulan (üstbilgide dosya adı bulunmayan) Gzip dosyaları atlanır. .csv,.txt,.tsv,.psvveya.jsonlgenişlemelerine sahip dosyalar, gzip sihirli baytları için kontrol edilir ve dosya bir.gzgenişlemesine sahip olmasa bile şeffaf bir şekilde sıkıştırması açılır.-
İç içe sıkıştırma (örneğin, bir
.gzdosyanın başka bir.gziçinde olması) desteklenmez ve atlanır. - Arama deseni alanı, glob desenleri yerine düzenli ifade sözdizimi kullanır (örneğin,
.*\.csv$yerine*.csvkullanın). - Tanınan bir genişleme olmayan dosyalar atlanır ve bir uyarı yayınlanır.
- Bağlayıcı, Azure API hız sınırları (HTTP 429) ve geçici sunucu hataları (HTTP 500, 502, 503, 504) için üstel geri çekilmeli yerleşik yeniden deneme mantığı içerir ve bu, beş denemeye kadar uygulanır.
- Dosya kodlamasının UTF-8 olması beklenmektedir.