Otomatik veri hazırlama ve dönüştürme

Deneyiniz için seçtiğiniz veri kümesi, model eğitimine hazırlanmak için otomatik ön işlemeden geçirilir. Ön işleme adımları, veri hazırlama ve dönüştürmedir. Bu işlem, doğru sonuçlar sağlayan bir model elde etmeniz için verilerin kalitesini artırır.

Verilerin ön işlenmesinde çeşitli veri bilimi teknikleri kullanılır. Çoğu adım varsayılan olarak gerçekleştirilir ve birçok kullanım senaryosunda iyi sonuçlar verir. Bu varsayılan adımların (ve temel kavramların) neler olduğunu bilmek, verileri, modeli eğitmek için kullanmadan önce, özel kullanım senaryonuzda verilerle ne yapmanız gerektiğini anlamanıza yardımcı olabilir.

Deney düzeni

Ön işleme başlamadan önce, Qlik Predict birkaç hazırlık adımı gerçekleştirir ve verilerinizin nasıl işleneceğine dair bir önizleme sunar. Bazı adımlar deney türünüze ve diğer faktörlere bağlıdır. Aşağıdaki adımlar geçerli olabilir:

Veri setindeki sütunları kategorik, sayısal, tarih veya serbest metin özellik türüne sahip olarak sınıflandırın.
- Ondalık veri türleri her zaman sayısal olarak kabul edilir.
- Bir dize veri türüyle ortalama en fazla 50 karakter içeren sütunlar kategorik olarak sınıflandırılır.
- Bir dize veri türüyle ortalama en az 50 karakter içeren sütunlar serbest metin olarak sınıflandırılır. Ancak bu aşamada bu sütunların serbest metin özellikleri olarak kullanılması garanti edilmez. Ön işleme sırasında ek gereklilikler kontrol edilir. bk. Ön işleme adımları.
- Tamsayı veri türleri her zaman sayısal olarak kabul edilir.
- Tarih ve zaman damgası veri türlerinin her zaman tarih özellik türüne sahip olduğu kabul edilir. Deney kurulumu sırasında Qlik Predict, ana tarih özelliğinden türetilebilecek otomatik tasarlanmış özelliklerin önizlemesini yapar.
Her sütunu seyreklik, sabitler ve yüksek kardinalite açısından kontrol edin. Şu koşullarda sütunu hariç tutun:
- Sütun %50 veya daha yüksek oranda null değer içeriyor. Özellik için null değerine sahip kayıtları silmek, yararlı olabilecek eğitim örneklerinin kaybedilmesine yol açabilir. Bunun yerine değer atamak örneğin kurtarılmasını sağlayabilir ancak söz konusu kayıt, gerçeğin bir kestirimi haline gelir. Bu nedenle, yüksek miktarda (%50'den fazla) null değer içeren özellikleri hariç tutmak genellikle daha iyi olur. 0 değerinin hiçbir zaman null olarak kabul edilmediğini unutmayın.
- Sütun her satırda aynı değere sahiptir (sabit). Başka bir deyişle, sütun düşük kardinaliteye sahiptir. Sadece bir değer barındıran özellikler, tahmin açısından değer sunmaz.
- Sütun kategoriktir ve yüzde 90 veya daha fazla benzersiz değere sahiptir (yüksek kardinalite). Çok fazla sayıda benzersiz değer, modelin eğitim veri kümesi dışında genelleştirme yapmasını zorlaştırır.

Ön işleme başladıktan sonra verilerin nasıl ele alınacağı konusunda ayarlamalar yapılabilir.

Ön işleme adımları

Bir hedef sütun seçtikten sonra, sonraki adımlar deney türüne bağlıdır. Sınıflandırma ve regresyon deneyleri için, hedef değerin null olduğu satırlar tespit edilip ayrılır ve geriye eğitim kümesi adı verilen, hedefin bilindiği satırlar kalır. Zaman serisi deneyleri için, eksik hedef değerleri enterpolasyon yapılır.

Aşağıdaki adımlarda karar vermek için yalnızca eğitim kümesindeki veriler kullanılır. Adımlar, meta verilerle birlikte kaydedilir ve modelin tahminlerde bulunması için yeni verilere uygulanır.

Ön işleme, yeni bir deney sürümü çalıştırdığınızda dahil edilen özellikler üzerinde gerçekleştirilir. Bazı adımlar deney türünüze ve diğer faktörlere bağlıdır.

Sayısal değerler için ortalamayı, kategorik değerler için modu hesaplayıp kaydedin.
Eksik değerlerin yerine değer atayın. Daha fazla bilgi için şuraya bakın: Geçersiz değerlere değer atanması.
Kategorik değişkenleri kodlayın.
Zaman serisi modelleri için, kullanıcı tarafından yapılandırılan deney özelliklerini doğrulamak ve eğitim tamamlandıktan sonra kullanıcıya ek bilgi sağlamak amacıyla bir dizi adım gerçekleştirilir:
- Maksimum tahmin penceresi belirlenir.
- Tarih dizininin zaman adımı onaylanır.
- Kullanıcı tarafından seçilen hedef gruplandırmaları doğrulanır veya belirtilmemişse, dahil edilen kategorik özelliklerden mevcutsa tanımlanır.
Veri kümesindeki mevcut sütunlardan yeni özellikler oluşturun. Otomatik tasarlanmış bu yeni özellikler, oluşturduğunuz modellerin performansını ve tahmin kabiliyetini artırabilir.

Olası serbest metin olarak tanımlanan sütunlar, ortalama sözcük uzunluğu açısından kontrol edilir. Sütunda ortalama sözcük uzunluğu en az beş ise bu sütun, otomatik özellik mühendisliği kullanarak serbest metin özelliği şeklinde kodlanabilir. Aksi takdirde bir uyarı gösterilir. Serbest metin olarak kullanılamayan ve yüksek niceliğe sahip özelliğin seçimi kaldırılmalıdır.
Özellik ölçeklendirmede kullanmak üzere her bir sütun için özel istatistiklerini hesaplayın ve kaydedin.
Özellik ölçeklendirme ile her sütunu standartlaştırın.
Yanlılık tespiti için seçilmiş olan özellikler üzerinde analiz gerçekleştirerek, veri yanlılığı metriklerini ve ilgili içgörüleri döndürün. Daha fazla bilgi için şuraya bakın: Makine öğrenimi modellerinde yanlılığı tespit etme.
Eğitim verilerinde otomatik bekletme ve beş katlamalı çapraz doğrulama kullanın. Daha fazla bilgi için şuraya bakın: Veri bekletme ve çapraz doğrulama.
Veri kümesi hakkında çeşitli istatistikleri artırılmış kesinlikle hesaplayın. Örneğin, veri kümesi boyutu, satır ve hücre sayıları ve boş değer oranları hakkında yeni bilgiler mevcut olabilir. Daha fazla bilgi için şuraya bakın: Eğitim veri kümesi ve profil oluşturma sınırlamaları.

Daha fazla bilgi

Otomatik özellik mühendisliği

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız lütfen bize bildirin!

Geri bildiriminizi buradan iletin