Akış verileri | Qlik Cloud Yardımı
Ana içeriğe geç Tamamlayıcı içeriğe geç

Akış verileri

Ekleme süreci, verileri kaynaktan aktarır ve Iceberg tablolarında depolar. Akış veri kaynaklarından gelen değişiklikler, depolama tablolarına neredeyse gerçek zamanlı olarak sürekli uygulanır.

Veri ekleme

Veriler bir işlem hattı projesi içinde eklenir ve veri kümeleri proje ayarlarında tanımlanan S3 konumunda depolanır.

  1. Projenizde Oluştur'a ve ardından Veri ekle'ye tıklayın.

  2. Ekleme işlemi için bir Görev adı ve isteğe bağlı bir Açıklama ekleyin.

    İleri'ye tıklayın.

  3. Kaynak bağlantısını seçin.

    Mevcut bir akış kaynağı bağlantısı seçebilir veya kaynağa yeni bir bağlantı oluşturabilirsiniz.

    Daha fazla bilgi için bkz. Veri klasörlerine bağlanma

    İleri'ye tıklayın ve veri kaynağınız için aşağıdaki talimatları izleyin.

Veri seçme

Apache Kafka

Liste, kaynak bağlantısında tanımlanan kümedeki mevcut Kafka konularını görüntüler.

Konularınızı seçerken belirli veri kümelerini seçebilirsiniz. Ayrıca veri kümesi gruplarını dahil etmek veya hariç tutmak için seçim kurallarını kullanabilirsiniz:

  • Veri kümeleri için bir seçim kriterleri tanımlamak üzere joker karakter olarak % kullanın.

Konular seçim kuralları kullanılarak seçilirse, tüm veri kümelerini aynı hedef tabloya yüklemeyi veya her kaynak konu için ayrı bir hedef tablo oluşturmayı seçebilirsiniz:

  • Varsayılan olarak, hedef Iceberg tablo adı konu adından türetilir ve adlandırma kurallarına uyacak şekilde biçimlendirilir; örneğin, küçük harf, boşluklar kaldırılmış, tireler alt çizgi ile değiştirilmiş. Hedef veri kümesi adını tanımla bölümünde hedef tablonun adını düzenleyebilirsiniz

  • Birden fazla konuyu tek bir tabloya yüklemek için seçim kuralları kullanıldığında, hedef adını sağlamanız gerekir.

  • Seçim kuralları kullanıldığında ve veriler ayrı tablolara (konu başına bir veri kümesi) yüklendiğinde, varsayılan hedef adları konu adlarıdır. Bu aşamada, sihirbazdaki adları düzenleyemezsiniz, ancak bu işlem daha sonra yerleştirme görevinde yapılabilir.

  • Alım için konuları seçecek bir kural yapılandırılmışsa, yerleştirme görevi ayarlarındaki şema evrimi altındaki Yeni konu  > Hedefe ekle seçeneği işaretliyse kural kriterlerini karşılayan tüm yeni konular da yerleştirilir.

Bir veya daha fazla veri kümesi seçin veya bir seçim kuralı kullanın ve Ekle'ye tıklayın. İleri'ye tıklayın.

Amazon Kinesis

Liste, kaynak bağlantısında tanımlanan mevcut Kinesis klasörlerini görüntüler.

Bir veya daha fazla veri kümesi seçin ve Ekle'ye tıklayın. Eklenen veri kümelerini Seçilen klasörler altında görebilirsiniz. İleri'ye tıklayın.

Amazon S3

Dizin tarayıcısı, kaynak bağlantınızın S3 demetinde bulunan tüm dizinlerin bir listesini görüntüler. 

Bilgi notuDizinleri seçmek için bir veri deseni kullanmak performansı artırabilir.
  • Verileri yerleştirirken dahil edilecek dizinleri seçin:

    • Her dizin için Yol ekle bölümüne yolu ve dosya adı desenini girin:

      • Herhangi bir karakterle eşleşmesi için joker karakter olarak * kullanın.

      • Bir tarih deseni girmek için dört basamaklı yıl yer tutucusu olarak <yyyy>, iki basamaklı ay yer tutucusu olarak <MM>, iki basamaklı gün yer tutucusu olarak <dd> ve iki basamaklı saat yer tutucusu olarak <HH> kullanın. Örneğin:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • Verileri önizle iletişim kutusunu açmak için Önizleme'ye tıklayın. Dahil edilen ve hariç tutulan dosyaların bir listesi görüntülenir.

  • Yolların ve dosya adı desenlerinin doğru ve işlevsel olduğunu kontrol etmek için Doğrula'ya tıklayın.

  • Hedef veri kümesi adını tanımla bölümünde, konuyu hedef Iceberg tablosuyla eşlemek için bir ad sağlayın. İleri'ye tıklayın.

İçerik türünü seçme

Kaynak olayları içerik türünü seçin.

  • Veri olaylarının türünü seçin bölümünde aldığınız olayların türünü seçin.

  • Daha fazla bilgi için bkz. Veri klasörlerine bağlanma.

    Seçilen içerik türü tüm konular, veri kümeleri veya veri olayları için geçerlidir. Almak istediğiniz her içerik türü için yeni bir görev oluşturmalısınız.

  • Verilerin ayrıştırılabildiğini onaylamak için Olayların doğru yüklendiğini doğrulayın seçeneğini genişletin. Bu aşamada verilerin doğru olduğundan emin olmak iyi bir fikirdir, aksi takdirde işlem hattını yeniden oluşturmanız ve verileri tekrar yüklemeniz gerekir. Belirli veri kümelerini incelemek ve verilerin yüklenmesini etkileyebilecek uyarıları kontrol etmek için Veri kümesi seç seçeneğini kullanın. Verileri görüntülemek için herhangi bir yapı (struct) sütununun yanındaki göz simgesine tıklayın.

  • İleri'ye tıklayın.

Bilgi notuVeri kümesi için hiçbir olay algılanmadıysa, yerleştirme sırasında bir mesaj görüntülenir. Okunacak olaylar olduğunda görevi çalıştırmanız gerekecektir ve sütunlar otomatik olarak eklenecektir.

Alım özelliklerini ayarlama

İşlem hattınız için ayarları yapılandırın:

  • Verileri şuradan oku

    • En eski olaydan başla: tüm geçmiş verileri al.

    • Şimdi başla: işlem hattı başladığı andan itibaren gelen yeni verileri al.

  • Sütun iç içe geçmesini kaldırma

    • İç içe geçmiş sütunları koru: hiçbir dönüştürme uygulanmaz.

    • Ayrı sütunlara ayır: veriler ayrı sütunlara bölünür.

  • Yeni veri kümeleri için yükleme ayarları

    • Yalnızca ekle: genellikle kısa bir ömre sahip olduğu ve güncellenmediği için olay verileri için en iyi seçenektir, örneğin Siparişler.

    • Değişiklikleri uygula: bu, zaman içinde güncellenen veriler için en uygunudur, örneğin Müşteriler. Anahtar alanlara göre mevcut kayıtları günceller ve yeni kayıtlar ekler. Görevi tanımlarken daha sonra anahtar alanları belirtmeniz gerekecektir.

  • Hedef tablo bölümü

    Hedef tablo bölümü seçeneği, işlem hattındaki tüm tablolar için geçerlidir. Özel bölümleme tanımlamak için bunu daha sonra tablo düzeyinde geçersiz kılabilirsiniz.

    Bilgi notuBu seçenek yalnızca Yükleme ayarları bölümünde Yalnızca ekle seçildiğinde kullanılabilir.
    • Bölüm yok: tablolar herhangi bir bölümleme olmadan oluşturulur.

    • Olay alım tarihine göre bölümle: tablolar olayların alındığı tarihe göre bölümlenir.

      Bilgi notuBu seçenek hdr__from_timestamp başlık sütunu seçeneğiyle birlikte seçildiğinde, hdr__from_timestamp varsayılan bölüm sütunu olarak kullanılacaktır. Standart görünümlere hdr__from_timestamp başlık sütununu ekleme hakkında bilgi için bkz. Tablo tanımları.
  • Veri değişikliği işleme

    Bilgi notuBu seçenek yalnızca Yükleme ayarları bölümünde Değişiklikleri uygula seçildiğinde kullanılabilir.
    • Geçici silmeleri dahil et: Hangi kayıtların silinmek üzere işaretleneceğini tanımlamak için bir ifade girin.

    • Geçmiş veri deposu oluştur (Tür 2): Bu, değiştirilen kayıtların önceki sürümlerini tutacaktır.

  • İleri'ye tıklayın.

Özet

Özet ekranı, işlem hattınızın görsel bir sunumunu sağlar:

  • İsteğe bağlı olarak, Akış yerleştirme ve Akış Dönüştürme görevi için yeni değerler sağlamak üzere Adı ve açıklamayı düzenle'ye tıklayabilirsiniz.

  • İşlem hattı oluşturulduktan sonra ne olmasını istediğinize dair seçeneği belirleyin.

  • Tüm ayarları yapılandırdığınızda, akış işlem hattını oluşturmak için Oluştur'a tıklayın.

  • Proje görüntülendiğinde, verileri almaya başlamak için her bir görevi hazırlayabilir ve çalıştırabilirsiniz.

Veri türü eşlemeleri

İlk kaynak şeması, işlem hattı projenizi oluştururken HAZIRLIK aşamasından önce alınan verilerin bir örneğine dayanır ve şema evrimi okuma zamanında işlenir. STRUCT ve ARRAY'i desteklemeyen yansıtma görevleri ve diğer alt görevler bir JSON türü kullanır. Veriler SQL kullanılarak ayrıştırılabilir.

Aşağıdaki veri türü eşlemeleri desteklenen tüm veri kaynakları için geçerlidir, ancak kaynak dosya türüne göre değişir ve aşağıdakilere dikkat edilmelidir:

  • Veri türleri, eklenen verilerin bir örneğinden çıkarılır. Örneğin, bir alan örnekte yalnızca tamsayı değerleri içeriyorsa, akış yerleştirme ve dönüştürme görevlerinde INT8 olarak oluşturulur. Sonraki veriler çift kesinlikli kesirli değerler içeriyorsa, yerleştirme dosyaları bu değerleri içerir; ancak Akış dönüştürme görevinde, Alan veri türünü değiştir ayarı Yoksay olarak ayarlanmışsa, sütun INT8 olarak kalır ve kesirli değerler kesilir. İstenmeyen kesilmeleri önlemek için, eklemeden önce örnek verilerin beklenen değerlerin tam aralığını içerdiğinden emin olun veya erken aşamalarda Alan veri türünü değiştir seçeneğini Görevi durdur olarak yapılandırın ve veri türlerini gerektiği gibi ayarlayın.

  • Kaynaktaki bir yapıya (struct) bir alan eklenirse, bu her zaman yerleştirme hedefine eklenir. Akış dönüştürmesi için davranış, Akış dönüştürme görevi ayarları > Şema evrimi > Yapıya alanlar ekle (Hedefe uygula, Yoksay, Görevi durdur) bölümünde seçilen seçeneğe göre uygulanır.

  • Belirli bir kayıtta bir alan eksikse veya bir dizi boşsa, bunlar null olarak değerlendirilir.

  • Bir veri kümesi bir dizi tarafından düzleştirilirse ve o dizinin boş veya null olduğu bir kayıt gelirse, sistem bir satır oluşturur ve düzleştirilmiş alan null olur. Otomatik olarak hariç tutulmaz. Bu satırları hariç tutmak istiyorsanız, manuel olarak bir filtre ekleyin, örneğin, array_element IS NOT NULL.

  • Kullanıcı arayüzünde görüntülenen veri türleri, seçilen veri kümesi ayrıntı düzeyini yansıtır. Düzleştirilmiş diziler için, dizi yapısının kendisi yerine tek tek öğenin veri türü gösterilir.

  • İç içe geçmiş bir JSON alanı içindeki bir yapıya (struct) yeni bir öznitelik eklenemez, yalnızca kök düzeyinde eklenebilir.

  • Akış dönüştürme görevlerinde, düzleştirme yalnızca bir dizinin tek bir düzeyi için desteklenir. Düzleştirme çok düzeyli bir diziye uygulandığında, örneğin ARRAY<ARRAY<STRUCT>>, yalnızca dış dizi düzleştirilir ve tamamen düzleştirilmiş bir STRUCT yerine ARRAY<STRUCT> ile sonuçlanır. Ek olarak, mevcut kullanıcı arayüzü düzleştirmenin yalnızca sütun düzeyinde yapılandırılmasına izin verir. Sonuç olarak, çok düzeyli bir dizi seçmek, düzleştirmeyi dolaylı olarak yalnızca ilk dizi düzeyine uygular.

  • Bir ilkel (primitive) dizisine başvurduğunuzda, ayrıntı düzeyi diziyse öğenin veri türü kullanılır. Aksi takdirde dizi veri türü kullanılır.

    Bu örnekte, OrderDetails, INT veri türünde bir CustomerID dizisine sahiptir. OrderDetails.CustomerID, ayrıntı düzeyi OrderDetails.CustomerID ise INT ve ayrıntı düzeyi OrderDetails ise ARRAY<INT> anlamına gelir.

JSON

JSON dosyalarında, kaynaktaki sayısal değer hedef veri türünü belirler:

  • INT8, desteklenen tamsayı aralığına uyan ve kesirli bir bileşen içermeyen tamsayı değerleri için kullanılır.

  • REAL8 (DOUBLE), değer kesirli bir bileşen (kayan noktalı sayı) içerdiğinde kullanılır.

  • STRING, sayısal değer desteklenen maksimum tamsayı aralığını aştığında kullanılır.

Veri türleri aşağıdaki gibi eşlenir:

Kaynak veri türleri Qlik Talend Data Integration veri türleri
STRING STRING
NUMBER INT8
NUMBER REAL8
NUMBER STRING
BOOLEAN BOOLEAN
ARRAY ARRAY
OBJECT STRUCT

CSV, TSV, REGEX ve SPLIT

Varsayılan olarak, tüm kaynak veri türleri bir dizeye (string) alınır. Kaynak ve hedef türlerini aşağıdaki gibi eşlemek için Türleri otomatik olarak çıkar seçeneğini kullanın:

Kaynak veri türleri Qlik veri türleri
NUMERIC INT8/REAL8
True/TRUE/true/False/FALSE/false BOOLEAN
TIMESTAMP yyyy-MM-dd HH:mm:ss veya yyyy-MM-ddTHH:mm:ssz biçimindeki zaman damgaları bir datetime türüne ayrıştırılır. Bir saat dilimi dahil edilmişse, değer bir dize olarak ayrıştırılır.

Parquet

Parquet dosyaları fiziksel ve mantıksal veri türlerini destekler. Fiziksel veri türleri, INT32, DOUBLE veya BYTE_ARRAY gibi değerlerin diskte nasıl depolandığını tanımlar. Mantıksal veri türleri, fiziksel temsilin üzerinde anlamsal bir anlam sağlar, örneğin bir tamsayı değerinin bir tarihi temsil edip etmediğini belirler. Bir Parquet sütununa mantıksal bir tür eklendiğinde ve Qlik Açık Göl Evi içinde desteklendiğinde (aşağıda listelendiği gibi), Akış yerleştirme görevi hedef şemayı tanımlarken temel fiziksel tür yerine mantıksal türü kullanır. Bu, verilerin doğru yorumlanmasını sağlar, kesinlik, ölçek ve zamansal anlam gibi amaçlanan anlambilimi korur ve veriler alt biçimlere yazıldığında daha doğru şemalarla sonuçlanır.

Parquet dosyalarından kaynaklanan veriler aşağıdaki gibi eşlenir:

Kaynak veri türleri Mantıksal türler Qlik Talend Data Integration veri türleri
BOOLEAN BOOLEAN
INT32 INT8
INT64 INT8
INT96 DATETIME
FLOAT REAL8
DOUBLE REAL8
BYTE_ARRAY STRING (Base64 olarak kodlanmış)
FIXED_LEN_BYTE_ARRAY STRING (Base64 olarak kodlanmış)
BYTE_ARRAY STRING STRING
BYTE_ARRAY ENUM STRING
INT32 DECIMAL INT8
INT64 DECIMAL INT8
FIXED_LEN_BYTE_ARRAY DECIMAL INT8/REAL8 (Base64 olarak kodlanmış)
BYTE_ARRAY DECIMAL INT8/REAL8 (Base64 olarak kodlanmış)
INT32 DATE DATE
INT32 TIME(MILLIS,true) INT8
INT64 TIME(MICROS,true) TIME
INT64 TIMESTAMP(MICROS,true) DATETIME
INT64 TIMESTAMP(MILLIS,true) DATETIME
NESTED TYPES STRUCT
LIST ARRAY
MAP ARRAY<STRUCT>. Anahtar-değer çiftlerini temsil eden yapı (struct) dizisi.

Avro

Aşağıdaki eşlemeler, şema kayıt defterine sahip Avro dosyaları için geçerlidir.

Kaynak veri türleri Mantıksal türler Qlik Talend Data Integration veri türleri
BOOLEAN BOOLEAN
INT INT8
LONG INT8
FLOAT REAL8
DOUBLE REAL8
BYTES STRING
STRING STRING
RECORD STRUCT
ENUM STRING
ARRAY ARRAY
MAP ARRAY<STRUCT>
UNION
FIXED STRING
BYTES DECIMAL DECIMAL
FIXED DECIMAL DECIMAL
INT DATE DATE
INT TIME-MILLIS INT8
INT TIME-MICROS TIME
LONG TIMESTAMP-MILLIS DATETIME
LONG TIMESTAMP-MICROS DATETIME

ORC

Aşağıdaki eşlemeler ORC dosyaları için geçerlidir.

Kaynak veri türleri Qlik Talend Data Integration veri türleri
BOOLEAN BOOLEAN
BYTE INT8
SHORT INT8
INT INT8
LONG INT8
DATE DATE
FLOAT REAL8
DOUBLE REAL8
TIMESTAMP DATETIME
BINARY STRING
DECIMAL REAL8
STRING STRING
VARCHAR STRING
CHAR STRING
LIST ARRAY
MAP ARRAY<STRUCT>. Anahtar-değer çiftlerini temsil eden yapı (struct) dizisi.
STRUCT STRUCT
UNION

Sınırlamalar ve hususlar

  • Yerleştirme sırasında otomatik şema evrimi ile bir yapı veya dizi değiştirilirse, bir Qlik Talend Cloud akış görevi tarafından oluşturulmayan alt görünümlerin eskimiş olmaması için güncellenmesi gerekebilir.

  • Bir görevde ayrıştırma hataları varsa, hata durumuna geçmez ve dikkat gerektiriyor olarak işaretlenmez. Ayrıştırma hataları her zaman artan bir metrik olduğundan, bir hata durumu için çıkış kriteri yoktur.

  • Bir küme yeteneğinin kaldırılmasına yalnızca o yeteneği kullanan hiçbir görev yoksa izin verilir.

  • Aynı birincil anahtara sahip bir kayıttaki güncellemeler ve silmeler bölüm sınırını geçmemelidir, yani aynı bölüme eşlenmeleri gerekir.

  • Bir kaynak çok sayıda sütun içeriyorsa, görevlerde ve katalogda yalnızca sıklığa göre ilk 500 sütun görüntülenir. Tüm sütunlar S3 yerleştirmesindeki Avro dosyalarına kaydedilir, ancak Iceberg tablolarında yalnızca ilk 500 sütun depolanır. Şema evriminde, yeni bir sütun eklenirse, sık olsa bile ilk sütunlara eklenmez.

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız lütfen bize bildirin!