Otomatik özellik mühendisliği
Otomatik özellik mühendisliği ile Qlik AutoML, yeni özellikler oluşturmak için eğitim verilerinizde mevcut özellikleri kullanabilir. Otomatik tasarlanmış bu yeni özellikler, verilerinizdeki yeni kalıpları keşfetmenize olanak tanır ve makine öğrenimi modellerinizin performansını büyük ölçüde artırabilir.
Özellik mühendisliği, mevcut özellik sütunlarından yola çıkarak yeni özellik sütunları oluşturma işlemidir. AutoML, belirli veri türlerinin daha iyi işlenmesi için otomatik olarak özellik mühendisliği gerçekleştirebilir. Özellik mühendisliği hakkında genel bilgi için bk. Yeni özellik sütunları oluşturma.
Otomatik tasarlanmış tarih özellikleri ve türetildikleri ana özellikler simgesi ile işaretlenir.
Deneyinizde kullanmak üzere bir veri kümesi seçtikten sonra, veri kümesi analiz edilir ve içindeki sütunların belirli veri türlerini içerdiği belirlenir. Bu veri türleri, AutoML'in veri kümesindeki her sütuna bir özellik türü atamasını sağlar. Her sütuna aşağıdaki özellik türlerinden biri verilir:
-
Kategorik
-
Sayısal
-
Tarih
-
Serbest metin
Mümkün olduğunda AutoML, uygun ana özelliklerden oluşturulabilecek otomatik mühendislik özelliklerinin bir listesini görüntüler. Otomatik tasarlanmış bu özellikler listesi, ön işleme başladığında daha da iyileştirilir ve azaltılır. Deneyinize otomatik tasarlanmış özellikleri dahil etmeniz önerilir ancak bu isteğe bağlıdır. Eğitime başlamadan önce ve her yeni deney sürümünü yapılandırırken otomatik tasarlanmış özellikleri tek tek kaldırabilirsiniz.
Deney eğitimi başlamadan önce tamamlanan süreçler hakkında daha fazla bilgi için bk. Otomatik veri hazırlama ve dönüştürme.
Tarih özelliği mühendisliği
AutoML, tarih ve saat bilgisi içerdiği belirlenen tarih özellik türüne sahip uygun sütunlardan otomatik tasarlanmış özellikler oluşturur. Otomatik tasarlanmış tarih özellikleri ve türetildikleri ana özellikler simgesi ile işaretlenir.
Qlik Cloud Analizleri, AutoML'de kullanmak üzere seçtiğiniz eğitim veri kümesinin profilini çıkardığında, belirli veri türlerini tarih özelliği türüne bağlar. Bu, aşağıdaki veri türlerini içerir:
-
Tarih
-
Tarih saat
-
Zaman
-
Zaman Damgası
Profil oluşturma sırasında bu veri türlerinden herhangi birine atanan özelliklere tarih özellik türü verilir. Veri alanlarınız için görüntülenebilecek mevcut profil istatistikleri hakkında bilgi için bk. Profil Listesi görünümü.
Mümkün olduğunda AutoML, tarih özelliği türüne sahip uygun ana özelliklerden oluşturulabilecek otomatik tasarlanmış tarih özelliklerinin bir listesini görüntüler. Otomatik tasarlanmış tarih özellikleri varsayılan olarak deneye dahil edilir. Bunları dahil etmeyi seçerseniz yeni özellikler deneyin v1 sürümünden sonra oluşturulur.
Otomatik tasarlanmış tarih özellikleri sayısal özellik tipine sahiptir. Varsayılan olarak deneye dahil edilirler ancak isteğe bağlıdırlar. Deney eğitimine başlamadan önce veya bir sonraki deney sürümünü yapılandırırken bunların bir kısmını veya tamamını kaldırabilirsiniz. Otomatik tasarlanmış tarih özellikleri dahil edildiğinde, orijinal ana tarih özelliği deneyden çıkarılır.
Bunun yerine üst tarih özelliğini kategorik veya sayısal bir özellik olarak dahil edebilirsiniz. Bunu yaptığınızda, otomatik olarak tasarlanan tarih özellikleri artık kullanılamaz. Çoğu durumda, makine öğrenimi modellerinize gelişmiş performans sağladıkları için denemenizde mevcut otomatik mühendislik özelliklerini kullanmanız önerilir. Ancak bir sütunun tarih özelliği olarak tanımlandığı ancak kategorik veya sayısal olarak ele alınmasına ihtiyaç duyduğunuz senaryolar olabilir. Bu durumlarda, özellik türünü manuel olarak değiştirebilirsiniz.
Otomatik tasarlanmış tarih özellikleri, Qlik Cloud aboneliğinizde belirtilen AutoML veri kümesi boyutuna (eğitim veri kümelerindeki ve uygulama veri kümelerindeki maksimum hücre sayıları) dahil değildir. Yalnızca orijinal tarih sütunu hücreleri sayılır.
Tarih özelliklerini deney hedefi olarak kullanma
Deneyinizin hedefi olarak tarih ve saat bilgisi içeren bir özellik kullanmak istediğiniz nadir durumlarda, sütunun özellik türü tarihten kategorik hale getirilir ve otomatik tasarlanmış özellikler kaldırılır. Başka bir hedef seçerseniz daha sonra tarih ve saat özelliğini normal bir özellik olarak eklemek isterseniz gerekirse manuel olarak tarih özelliği türüne geri döndürmeniz gerekir. Özelliği tarih özelliği türüne döndürürseniz otomatik tasarlanmış tarih özellikleri yeniden oluşturulur.
Özellik türlerinin nasıl değiştirileceği hakkında daha fazla bilgi için bk. Özellik türlerini değiştirme.
Mevcut otomatik tasarlanmış tarih özellikleri
AutoML, veri kümenizdeki bir sütundan otomatik tasarlanmış tarih özellikleri oluştururken, her bir bileşeni kendi sütununda izole ederek her bir tarih ve tarih zaman değerinin belirli bileşenlerini ayıklayıp hesaplar. Aşağıdaki tabloda AutoML tarafından oluşturulabilen otomatik mühendislik özellikleri listelenmektedir.
Otomatik tasarlanmış özellikler | Veri türü | Özellik türü | Açıklama |
---|---|---|---|
YEAR | Tamsayı | Sayısal | Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan yıl alanı. |
MONTH | Tamsayı | Sayısal | Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan ay alanı. |
DAY | Tamsayı | Sayısal | Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan gün alanı. |
HOUR | Tamsayı | Sayısal | Doğrudan kaynak zaman damgasından ayrıştırılan saat alanı. |
MINUTE | Tamsayı | Sayısal | Doğrudan kaynak zaman damgasından ayrıştırılan dakika alanı. |
SECOND | Tamsayı | Sayısal | Doğrudan kaynak zaman damgasından ayrıştırılan saniye alanı. |
DAYOFWEEK | Tamsayı | Sayısal | Kaynak gün, ay ve yıldan hesaplanan haftanın günü. |
WEEK | Tamsayı | Sayısal | Kaynak gün, ay ve yıldan hesaplanan yılın haftası. |
Oluşturulan her yeni özellik için, orijinal sütun adının sonuna ilgili otomatik mühendislik özelliği eklenir.
Tahminlerde otomatik olarak tasarlanmış tarih özellikleri
Bir model oluşturmak için eğitim veri kümesi kullanılırken otomatik tasarlanmış tarih özellikleri oluşturulur ve bu özellikler dağıtılır, ayrıca yeni veriler (uygulama veri kümesi) üzerinde tahminler yapmak için bir ML dağıtımı olarak kullanılır.
Otomatik tasarlanmış tarih özellikleriyle eğitilen bir model tahminler yapmak için dağıtıldığında, tahminler oluşturduğunuz uygulama veri kümesinin otomatik tasarlanmış tarih özelliklerini içermesi gerekmez. AutoML, tahmin yapmadan önce uygulanan veri kümesi için otomatik tasarlanmış özellikler oluşturur. Ancak uygulanan veri kümesinin üst tarih özelliğini içermesi ve sütunun Tarih, Tarih Saati, Zaman Damgası veya Saat veri türüne sahip olarak profilinin çıkarılmış olması gerekir.
SHAP ve apply veri kümeleri de dahil olmak üzere bir ML dağıtımı tarafından oluşturulan tahmin veri kümeleri, otomatik tasarlanmış tarih özelliklerini içerecektir.
Gerçek zamanlı tahminlerde otomatik tasarlanmış tarih özellikleri
Gerçek zamanlı tahminler API'sinin tarih ve zaman damgası alanlarınızı işleyebilmesi için, gerçek zamanlı tahminler API'sine gönderdiğiniz JSON yükü aşağıdaki gerekliliklere uygun olmalıdır:
-
Tarih ve tarih saat değerleri ISO 8601 standartlarına uygun olarak biçimlendirilmiş dizeler olmalıdır
-
Her sütundaki verilerin aynı saat diliminde olması gerekir
Serbest metin verilerini yönetme
Serbest metinler (örneğin formlara girilen metin dizesi verileri), bir modelde faydalı olabilmeleri için makine öğrenimi algoritmaları tarafından özel olarak işlenmeyi gerektirir. Qlik AutoML'de serbest metinlerin işlenmesi, otomatik bir özellik mühendisliği biçimidir. Teknik olarak bu işlemede, TF-IDF (terim sıklığı - ters belge sıklığı) yöntemi kullanılır.
AutoML, İngilizce serbest metin verileriyle özellikler için ayrı işlemeyi destekler.
Eğitim verilerinizdeki bir sütun serbest metin içeriyorsa buna serbest metin özellik türü atanır. Bu, yüksek niceliğe (çok fazla benzersiz değer) sahipse kesinlikle tavsiye edilmese de kategorik bir özellik olarak da kullanılabilir.
Bir deneyde serbest metin özellikleri olarak kullanılmak üzere en fazla üç sütun seçebilirsiniz.
Serbest metin kodlaması için gereklilikler
Serbest metin olarak başarıyla kodlanması için serbest metin içeren bir sütun iki gerekliliği karşılamalıdır. Bu gereklilikler, deney oluşturma sürecinin farklı aşamalarında kontrol edilir.
Gereksinimler şöyledir:
-
Sütunun ortalama en az 50 karakter içermesi gerekir.
-
Sütunun ortalama sözcük uzunluğu en az beş sözcük olmalıdır.
Bir özelliği serbest metin olarak ele alma
Bir özelliği serbest metin olarak ele alma süreci aşağıdaki gibidir:
-
Eğitim verilerinizi seçtiğinizde Qlik AutoML, serbest metin olarak işlenebilecek özellikleri tanımlar. Bunlar, şema görünümünde Olası serbest metin içgörüsüyle işaretlenir ve serbest metin özellik türüne sahip olur.
-
Deneyin 1. sürümünü çalıştırmanızın ardından ek analiz tamamlanır. Bu noktada, başlangıçta olası serbest metin olarak işaretlenen özelliklerin serbest metin özellikleri olarak kullanılamayacağı görülebilir.
Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahipse deneyse bunların seçimini kaldırmanız önerilir. Bu özellikler, kategorik olarak ele alındıklarında model performansına değer katmaz.
Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahip değilse bunları, Kategorik olarak ele al'a tıklayarak veya serbest metin olan Özellik türlerini kategorik olarak değiştirerek dahil edebilirsiniz. Özellik türünü serbest metin olarak bırakırsanız aynı zamanda dahili şekilde kategorik olarak ele alınacak ve etki kodlaması yapılacaktır.
Ön işleme hakkında tüm ayrıntılar için bkz. Otomatik veri hazırlama ve dönüştürme.
Şema görünümünde gösterilen içgörülerin her biri hakkında daha fazla bilgi için bkz. Eğitim verileri hakkında içgörüleri görüntüleme.
Bir serbest metin özelliğini deney hedefi olarak kullanma
Nadir durumlarda bir serbest metin özelliği, hedef olarak seçilebilir. Özellik, serbest metin kodlaması için tüm gereklilikleri karşılıyorsa ve iki ila on benzersiz değer içeriyorsa hedef olarak kullanılabilir. Bu senaryolarda deney, standart bir ikili sınıflandırma veya çok sınıflı sınıflandırma sorunu olarak tanımlanır.
Tahminlerde serbest metin özellikleri
Serbest bir metin özelliğiyle eğitilen bir modeli dağıttığınızda ortaya çıkan ML dağıtımı, uygulama veri seti için aşağıdaki gereklilikler karşılandığı sürece tahmin üretebilir:
-
Özelliğin eğitim veri setindeki ve uygulama veri setindeki sütun adları eşleşir
-
Eğitim verisinde serbest metin özelliğine karşılık gelen uygulama veri setindeki sütunda dize verileri bulunur
Dikkat edilmesi gereken noktalar
Deneyinize serbest metin özellikleri eklemek, deneyin ve deneyi çalıştırmak için gereken işlemlerin karmaşıklığını artırır. Serbest metin verilerinizin yeterince karmaşık olması durumunda Permutation importance grafikleri, sonuçta oluşan modeller için kullanılamayabilir.
Sorun giderme
Bir modeli eğitmek için serbest metin verileri kullanmak yoğun kaynak kullanımı gerektiren bir süreçtir. Özellik olarak çok sayıda benzersiz sözcük içeren serbest metin sütunları eklediğinizde bir hatayla karşılaşabilirsiniz.
Bu hataları çözmek için bazı yönergeler burada verilmiştir:
-
Daha az serbest metin satırı eklemek için eğitim veri setinizdeki veri alt kümesini azaltın.
-
Model eğitimine eklemeniz gerekmeyen serbest metin özelliklerini kaldırın.
-
Bir veya daha fazla serbest metin sütununu serbest metin yerine kategorik özellikler olarak ele alın. Bu serbest metin özelliklerinin yüksek nicelik içerdiği durumlarda bu çözümün önerilmediğini unutmayın.