Model algoritmalarını anlama
Algoritma, bir modelin oluşturulmasını sağlayan matematiksel formüldür. Girdileri (veri kümenizi) alır ve bir çıktı (model) sunar. Her algoritmanın farklı güçlü ve zayıf yönleri vardır.
Bir hedef belirlediğinizde AutoML, kullanım senaryosuna en uygun algoritmaları otomatik olarak seçer. Kullanılacak algoritma türleri hedefe göre belirlenir.
İkili ve çok sınıflı sınıflandırma problemlerinde en iyi sonuç veren algoritmalar şu koşullarda kullanılır:
-
Hedef, yalnızca iki benzersiz değer içerdiğinde. Örneğin, "Müşteri, aboneliğini iptal edecek mi?" sorusuna verilecek Evet veya Hayır cevabı.
-
Hedef, 3 ile 10 arası benzersiz değere sahip bir dize değeri içerdiğinde. Örneğin, hedefin "kırmızı", "mavi", "yeşil" veya "sarı" değerlerinden biri olduğu durumlarda optimal kampanya karışımını belirliyorsanız.
Hedef bir sayısal sütunsa regresyon problemlerinde en iyi sonuç veren algoritmalar kullanılır. Bir müşterinin ne kadarlık satın alım gerçekleştireceğini tahmin etmek regresyon problemine örnek olarak gösterilebilir.
İkili ve çok sınıflı sınıflandırma problemlerine yönelik algoritmalar
AutoML, ikili ve çok sınıflı sınıflandırma problemleri için şu algoritmaları kullanır:
-
CatBoost Sınıflandırması
-
Elastik Net Regresyon
-
Gauss Naive Bayes
-
Lasso Regresyon
-
LightGBM Sınıflandırması
-
Lojistik Regresyon
-
Rastgele Orman Sınıflandırması
-
XGBoost Sınıflandırması
Regresyon problemlerine yönelik algoritmalar
AutoML, regresyon problemleri için şu algoritmaları kullanır:
-
CatBoost Regresyonu
-
LightGBM Regresyonu
-
Lineer Regresyon
-
Rastgele Orman Regresyonu
-
SGD Regresyonu
-
XGBoost Regresyonu
Farklı model türleri
Model türleri; regresyon modelleri, topluluklar ve diğer makine öğrenimi modelleri olarak gruplandırılabilir.
Regresyon modelleri
Regresyon modelleri veya genel doğrusal modeller, birbirinden bağımsız olarak her değişkenin tanım kümesindeki eğilimleri bulan modellerdir. y = mx+b cebirsel denklemindeki gibi algoritma, x ve y değerlerinin her biri için ortalama olarak en üst düzeyde doğruluk sağlayacak bir m ve bir b seçmeye çalışır. Birden fazla değişken olduğunda genellikle aynı kavram kullanılır. Lineer regresyon ve lojistik regresyon, sırasıyla regresyon ve sınıflandırma problemleri için birer regresyon modeli örneğidir.
Sınıflandırma problemlerinde, regresyon modeli çıktısı örneklemin pozitif sınıf olma olasılığıdır. Bu, y'nin olasılık belirttiği ve gerçek bir değer olmadığı anlamına gelir.
Regresyonlar verilerdeki doğrusal eğilimleri bulmak için idealdir ancak bazen doğrusal olmayan bir ilişki görülebilir. Regresyonun doğrusal olmayan bir örüntüye uygun olması için model eğitiminden önce verilerin dönüştürülmesi gerekir. Doğrusal ilişkilerin iyi anlaşılması, doğrusal ilişkilerin genellikle ekstrapolasyon ile iyi sonuç vermesi açısından avantaj sağlar. Tabloda regresyon modellerinin avantaj ve dezavantajları listelenmektedir.
Avantajlar | Dezavantajlar |
---|---|
|
|
Topluluk modelleri
Topluluklar, birden çok modelin birleştirilmesiyle oluşur. Bu, farklı geçmişlere sahip kişilerden oluşan bir grubun oy vermesine ve karar vermek için de oy ortalamasının kullanılmasına benzetilebilir. Rastgele Orman ve XGBoost, topluluk modellerine örnek olabilir.
Topluluklar, hem regresyon hem de sınıflandırma problemlerini çözebilir. Doğrusal olmayan ilişkileri ve değişkenler arasındaki etkileşimin hedefi nasıl etkilediğini bulmada iyi sonuç verirler. Topluluklar, eğitildikleri veri aralığı içindeki örüntüleri öğrenmede iyi olmalarına karşın gösterilen aralık dışındaki değerleri tahmin etme performansları yetersizdir. Tabloda topluluk modellerinin avantaj ve dezavantajları listelenmektedir.
Avantajlar | Dezavantajlar |
---|---|
|
|
Diğer model türleri
Diğer model türleri, diğer tüm model türlerini kapsar. En Yakın Komşu ve Gaussian Naive Bayes bunlara örnek olarak gösterilebilir. Bu model türlerinde genellikle verilere ait yeni bir uzamsal gösterim oluşturulmaya çalışılır. Bunu yapmak için çoğunlukla iki kaydın arasında ne kadar fark olduğunu belirten bir uzunluk ölçüsü türü oluşturulur. Doğrusal olmayan eğilimlerle çalışırken iyi sonuç verir ancak veri kümesi büyüdüğü için bilgi işlem maliyeti çok daha yüksektir. Tabloda diğer modellerin avantaj ve dezavantajları listelenmektedir.
Avantajlar | Dezavantajlar |
---|---|
|
|