Google Cloud Storage
Google Cloud Storage Google Cloud altyapısında veri depolamak ve verilere erişmek için Google'ın birleşik nesne depolama hizmetidir. Yüksek kullanılabilirlik, küresel yedeklilik sunar ve daha geniş Google Cloud ekosistemiyle entegre olur.
Qlik Talend Cloud, Google Cloud Storage (GCS) ile bağlantı kurmak için hedef demete okuma erişimi olan bir Google Cloud hizmet hesabı kullanır. Bağlayıcı, belirtilen demetten dosyaları alır, dosya içeriklerini örnekleyerek şemaları otomatik olarak keşfeder ve dosya değiştirme zaman damgalarına göre artımlı veri çoğaltma gerçekleştirir.
Kimlik doğrulamaya hazırlanılıyor
Verilerinize erişmek için, Bağlantı'yı hesap bilgilerinizle kimlik doğrulamanız gerekmektedir.
Google Cloud Storage hesabınızı kurmak için şunlara ihtiyacınız var:
- Cloud Storage API etkinleştirilmiş bir Google Cloud Platform (GCP) projesi.
- Çoğaltılacak dosyaları içeren bir Google Cloud Storage (GCS) demeti.
- Demete okuma erişimi olan bir hizmet hesabı.
Önerilen rol Depolama Nesnesi Görüntüleyici'dir (
roles/storage.objectViewer), bu da gereklistorage.objects.getvestorage.objects.listizinlerini verir. Daha fazla bilgi için bkz. Google Cloud Storage IAM rolleri belgeleri. - Hizmet hesabı için indirilen bir hizmet hesabı JSON anahtar dosyası.
Hizmet hesabı oluşturmak ve kimlik bilgilerinizi almak için:
- Google Cloud hesabınıza giriş yapın.
- IAM ve Yönetici > Hizmet Hesapları'na gidin.
- Hizmet Hesabı Oluştur öğesine tıklayın.
- Hizmet hesabı için bir ad ve açıklama girin, ardından Oluştur ve Devam Et öğesine tıklayın.
- Hizmet hesabına Depolama Nesnesi Görüntüleyici rolünü veya
storage.objects.getvestorage.objects.listizinleriyle özel bir rolü verin. - Tıklayın Devam ve Bitti.
- Yeni oluşturduğunuz hizmet hesabınızda, Eylemler menüsüne tıklayın.
- Şuraya gidin: Anahtarları Yönet > Anahtar Ekle > Yeni anahtar oluştur.
- JSON'u seçin ve Oluştur'a tıklayın.
JSON anahtar dosyası doğrudan makinenize indirilir. Bu dosya, Bağlantı kurmak için gereken
project_id,client_emailveprivate_keyalanlarını içerir.Anahtar dosyasını yalnızca bir kez indirebilirsiniz. Google Cloud kaynaklarınıza erişim sağladığı için güvenli bir şekilde sakladığınızdan ve yedeklediğinizden emin olun.
Desteklenen dosya biçimleri
- Sınırlanmış metin: CSV, TSV, PSV, TXT (yapılandırılabilir ayraç ile)
- JSON Satırları (
.jsonl) - Parke (
.parquet) - Avro (
.avro) - Yukarıdaki formatlardan herhangi birini içeren Gzip sıkıştırılmış dosyalar (
.gz) - CSV, JSON Lines, TXT, TSV, PSV veya Gzip dosyaları içeren ZIP arşivleri
Bağlantı oluşturuluyor
Daha fazla bilgi için bk. SaaS uygulamalarına bağlanma.
- Zorunlu bağlantı özelliklerini doldurun.
-
Bağlantı adı kısmında bağlantı için bir ad sağlayın.
-
Oluşturulduğu zaman bağlantı için meta verileri tanımlamak üzere Bağlantı meta verilerini aç'ı seçin.
-
Oluştur'a tıklayın.
| Ayarlar | Açıklama |
|---|---|
| Veri ağ geçidi |
Kullanım durumunuz gerektiriyorsa bir Veri Hareketi ağ geçidi seçin. Bilgi notu
Qlik Talend Cloud Başlangıç Kılavuzu aboneliği Veri Hareketi ağ geçidi desteklenmediğinden bu alan, söz konusu abonelikle kullanılamaz. Başka bir abonelik kademeniz varsa ve Veri Hareketi ağ geçidi kullanmak istemiyorsanız Hiçbiri'ni seçin. Veri Hareketi ağ geçidi avantajları ve bunu gerektiren kullanım durumları hakkında bilgi için bkz. Qlik Data Gateway - Veri Hareketi. |
| Başlangıç Tarihi |
Verilerin kaynağınızdan hedefinize çoğaltılması gereken tarihi |
| Müşteri E-postası | Hizmet hesabı JSON anahtar dosyasından istemci e-postası. |
| Proje Kimliği | Hizmet hesabı JSON anahtar dosyasından Proje Kimliği. |
| Kova | Dosyaların depolandığı Google Cloud Storage (GCS) demetinin adı, örneğin, my-gcs-bucket.
Ön eki |
| Tablolar | Hangi dosyaların okunduğunu ve içeriklerinin nasıl yorumlandığını kontrol etmek için tabloları yapılandırın. Her tablo tanımı, bir dosya arama deseni, bir tablo adı ve gelişmiş davranış için isteğe bağlı ayarlar içerir. |
| Özel Anahtar | Hizmet hesabı JSON anahtar dosyasından özel anahtar. |
Tablo yapılandırması
Tablo yapılandırmasındaki her bir giriş, hedef demetteki dosyalardan oluşturulan bir mantıksal tablo belirtir. Her tablo için aşağıdaki özellikleri yapılandırabilirsiniz:
| Özellik | Zorunlu veya İsteğe Bağlı | Açıklama |
|---|---|---|
| Tablo Adı | Gerekli |
Mantıksal tablo için bir ad belirtin, örneğin my_orders_csv. Bu ad, Qlik Talend Cloud'de klasör adı olarak görünecektir.
|
| Arama Deseni | Gerekli |
Dosya adlarıyla eşleşecek bir düzenli ifade girin, örneğin .csv$ tüm CSV dosyalarını seçmek için.
|
| Arama Öneki | İsteğe Bağlı | Dosya aramasını daraltmak için demet içinde bir yol öneki belirtin, örneğin exports/orders/. Bir önek kullanmak, taranan dosya sayısını sınırlayarak performansı artırır.
|
| Temel Özellikler | İsteğe Bağlı |
Birincil anahtarı tanımlamak için, virgülle ayrılmış bir veya daha fazla sütun adı listeleyin. Örneğin: id veya id,date.
|
| Tarih Geçersiz Kılmaları | İsteğe Bağlı | Tarih-saat alanları olarak işlenecek sütun adlarını virgülle ayırarak listeleyin. Şema keşfi sırasında bu alanlar otomatik olarak algılanmazsa bu seçeneği kullanın. |
| Ayırıcı | İsteğe Bağlı |
Dosyalarınızdaki değerleri ayıran karakteri belirtin. Varsayılan , (virgül)'dür. \t'i sekme ayrılmış (TSV) dosyaları için veya |'yi boru ayrılmış (PSV) dosyaları için kullanın. Boş bırakılırsa, sistem ayırıcıyı dosya genişlemesine göre otomatik olarak algılar.
|
Tablolar eşlendi
Tablolar, tablo yapılandırmasına göre oluşturulur (yukarıya bakın). Her tablo, Google Cloud Storage (GCS) demetindeki, belirtilen arama deseniyle ve isteğe bağlı herhangi bir önekle eşleşen bir dosya kümesine karşılık gelir. Bağlayıcı, tablo başına en fazla 5 dosyayı örnekleyerek, her beşinci satırı okuyarak ve dosya başına maksimum 1.000 kayıtla şemaları otomatik olarak keşfeder.
Çoğaltma artımlıdır ve değişiklikleri izlemek için dosya değişiklik zaman damgalarını kullanır. Her ayıklama sırasında, bağlayıcı, senkronizasyon yer imi tarafından kaydedildiği şekilde, yalnızca son başarılı senkronizasyondan bu yana değiştirilmiş olan dosyaları işler.
Aşağıdaki sistem sütunları her tabloya varsayılan olarak eklenir:
| Sütun | Açıklama |
|---|---|
_sdc_source_bucket
|
Kaydın okunduğu Google Cloud Storage (GCS) demetinin adı. |
_sdc_source_file
|
Kaydı içeren dosyanın tam yolu. |
_sdc_source_lineno
|
Dosya içindeki kaydın satır numarası. |
_sdc_extra
|
Ayrıştırma sırasında bulunan ve keşfedilen şemayla eşleşmeyen fazladan sütunlar. Yalnızca JSONL dosyaları için geçerlidir. |
Sınırlamalar ve dikkat edilmesi gerekenler
-
Hizmet hesabı kimlik bilgileri (
project_id,client_email,private_key) JSON anahtar dosyasından çıkarılan bireysel değerler olarak sağlanmalıdır; dosya yükleme desteklenmemektedir. -
Gzip sıkıştırılmış dosyalar (
.gz) desteklenmektedir. Bağlayıcı, iç dosya biçimini belirlemek için orijinal dosya adını gzip başlığından okur. Başlıkta dosya adı saklanmayan--no-nameile oluşturulan Gzip dosyaları atlanır. -
İç içe sıkıştırma (örneğin, bir
.gzbaşka bir.gziçinde veya bir.zipbir.zipiçinde) desteklenmemektedir. Bu dosyalar atlandı. .csv,.txt,.tsv,.psvveya.jsonlgenişlemelerine sahip dosyalar, gzip sihirli baytları için kontrol edilir ve gzip ile sıkıştırılmışsa açılır—dosya bir.gzgenişlemesine sahip olmasa bile.search_patternalanı, düzenli ifade sözdizimi kullanır, glob desenleri değil. Örneğin,\.csv$yerine*.csvkullanın.-
Bağlayıcı, Google Cloud Storage (GCS) API hız sınırları (
429) ve geçici sunucu hataları (500,502,503,504) için üstel geri çekilme ile yerleşik yeniden deneme mantığına sahiptir. Başarısız olmadan önce en fazla beş deneme yapılır. - Tanınan bir genişleme olmadan dosyalar atlanır ve bir uyarı yayınlanır.