Otomatik veri hazırlama ve dönüştürme
Deneyiniz için seçtiğiniz veri kümesi, model eğitimine hazırlanmak için otomatik ön işlemeden geçirilir. Ön işleme adımları, veri hazırlama ve dönüştürmedir. Bu işlem, doğru sonuçlar sağlayan bir model elde etmeniz için verilerin kalitesini artırır.
Verilerin ön işlenmesinde çeşitli veri bilimi teknikleri kullanılır. Çoğu adım varsayılan olarak gerçekleştirilir ve birçok kullanım senaryosunda iyi sonuçlar verir. Bu varsayılan adımların (ve temel kavramların) neler olduğunu bilmek, verileri, modeli eğitmek için kullanmadan önce, özel kullanım senaryonuzda verilerle ne yapmanız gerektiğini anlamanıza yardımcı olabilir.
Deney düzeni
Ön işleme başlamadan önce, AutoML birkaç hazırlık adımı gerçekleştirir ve verilerinizin nasıl işleneceğine dair bir önizleme sunar. Aşağıdaki adımlar geçerlidir:
-
Veri setindeki sütunları kategorik, sayısal, tarih veya serbest metin özellik türüne sahip olarak sınıflandırın.
-
Ondalık veri türleri her zaman sayısal olarak kabul edilir.
-
Bir dize veri türüyle ortalama en fazla 50 karakter içeren sütunlar kategorik olarak sınıflandırılır.
-
Bir dize veri türüyle ortalama en az 50 karakter içeren sütunlar serbest metin olarak sınıflandırılır. Ancak bu aşamada bu sütunların serbest metin özellikleri olarak kullanılması garanti edilmez. Ön işleme sırasında ek gereklilikler kontrol edilir. Bk. Ön işleme adımları.
-
Tamsayı veri türleri her zaman sayısal olarak kabul edilir.
-
Tarih ve zaman damgası veri türlerinin her zaman tarih özellik türüne sahip olduğu kabul edilir. Deney kurulumu sırasında AutoML, ana tarih özelliğinden türetilebilecek otomatik tasarlanmış özelliklerin önizlemesini yapar.
-
-
Her sütunu seyreklik, sabitler ve yüksek kardinalite açısından kontrol edin. Şu koşullarda sütunu hariç tutun:
-
Sütun %50 veya daha yüksek oranda null değer içeriyor. Özellik için null değerine sahip kayıtları silmek, yararlı olabilecek eğitim örneklerinin kaybedilmesine yol açabilir. Bunun yerine değer atamak örneğin kurtarılmasını sağlayabilir ancak söz konusu kayıt, gerçeğin bir kestirimi haline gelir. Bu nedenle, yüksek miktarda (%50'den fazla) null değer içeren özellikleri hariç tutmak genellikle daha iyi olur. 0 değerinin hiçbir zaman null olarak kabul edilmediğini unutmayın.
-
Sütun her satırda aynı değere sahiptir (sabit). Başka bir deyişle, sütun düşük kardinaliteye sahiptir. Sadece bir değer barındıran özellikler, tahmin açısından değer sunmaz.
-
Sütun kategoriktir ve yüzde 90 veya daha fazla benzersiz değere sahiptir (yüksek kardinalite). Çok fazla sayıda benzersiz değer, modelin eğitim veri kümesi dışında genelleştirme yapmasını zorlaştırır.
-
Ön işleme başladıktan sonra verilerin nasıl ele alınacağı konusunda ayarlamalar yapılabilir.
Ön işleme adımları
Bir hedef sütun seçtikten sonra, hedef değerin null olduğu satırlar tespit edilip ayrılır ve geriye eğitim kümesi adı verilen, hedefin bilindiği satırlar kalır. Aşağıdaki adımlarda karar vermek için yalnızca eğitim kümesindeki veriler kullanılır. Adımlar, meta verilerle birlikte kaydedilir ve modelin tahminlerde bulunması için yeni verilere uygulanır.
Ön işleme, yeni bir deney sürümü çalıştırdığınızda dahil edilen özellikler üzerinde gerçekleştirilir.
-
Sayısal değerler için ortalamayı, kategorik değerler için modu hesaplayıp kaydedin.
-
Eksik değerlerin yerine değer atayın. Daha fazla bilgi için bk. Null değerler için atanan değer.
-
Kategorik değişkenleri kodlayın.
-
Veri kümesindeki mevcut sütunlardan yeni özellikler oluşturun. Otomatik tasarlanmış bu yeni özellikler, oluşturduğunuz modellerin performansını ve tahmin kabiliyetini artırabilir.
Olası serbest metin olarak tanımlanan sütunlar, ortalama sözcük uzunluğu açısından kontrol edilir. Sütunda ortalama sözcük uzunluğu en az beş ise bu sütun, otomatik özellik mühendisliği kullanarak serbest metin özelliği şeklinde kodlanabilir. Aksi takdirde bir uyarı gösterilir. Serbest metin olarak kullanılamayan ve yüksek niceliğe sahip özelliğin seçimi kaldırılmalıdır.
-
Özellik ölçeklendirmede kullanmak üzere her bir sütun için özel istatistiklerini hesaplayın ve kaydedin.
-
Özellik ölçeklendirme ile her sütunu standartlaştırın.
-
Eğitim verilerinde otomatik bekletme ve beş katlamalı çapraz doğrulama kullanın. Daha fazla bilgi için bk. Veri bekletme ve çapraz doğrulama.