Ana içeriğe geç Tamamlayıcı içeriğe geç

Otomatik özellik mühendisliği

Otomatik özellik mühendisliği ile Qlik AutoML, yeni özellikler oluşturmak için eğitim verilerinizde mevcut özellikleri kullanabilir. Otomatik tasarlanmış bu yeni özellikler, verilerinizdeki yeni kalıpları keşfetmenize olanak tanır ve makine öğrenimi modellerinizin performansını büyük ölçüde artırabilir.

Özellik mühendisliği, mevcut özellik sütunlarından yola çıkarak yeni özellik sütunları oluşturma işlemidir. AutoML, belirli veri türlerinin daha iyi işlenmesi için otomatik olarak özellik mühendisliği gerçekleştirebilir. Özellik mühendisliği hakkında genel bilgi için bk. Yeni özellik sütunları oluşturma.

Otomatik tasarlanmış tarih özellikleri ve türetildikleri ana özellikler Otomatik tasarlanmış simgesi ile işaretlenir.

Deneyinizde kullanmak üzere bir veri kümesi seçtikten sonra, veri kümesi analiz edilir ve içindeki sütunların belirli veri türlerini içerdiği belirlenir. Bu veri türleri, AutoML'in veri kümesindeki her sütuna bir özellik türü atamasını sağlar. Her sütuna aşağıdaki özellik türlerinden biri verilir:

  • Kategorik

  • Sayısal

  • Tarih

  • Serbest metin

Mümkün olduğunda AutoML, uygun ana özelliklerden oluşturulabilecek otomatik mühendislik özelliklerinin bir listesini görüntüler. Otomatik tasarlanmış bu özellikler listesi, ön işleme başladığında daha da iyileştirilir ve azaltılır. Deneyinize otomatik tasarlanmış özellikleri dahil etmeniz önerilir ancak bu isteğe bağlıdır. Eğitime başlamadan önce ve her yeni deney sürümünü yapılandırırken otomatik tasarlanmış özellikleri tek tek kaldırabilirsiniz.

Deney eğitimi başlamadan önce tamamlanan süreçler hakkında daha fazla bilgi için bk. Otomatik veri hazırlama ve dönüştürme.

Tarih özelliği mühendisliği

AutoML, tarih ve saat bilgisi içerdiği belirlenen tarih özellik türüne sahip uygun sütunlardan otomatik tasarlanmış özellikler oluşturur. Otomatik tasarlanmış tarih özellikleri ve türetildikleri ana özellikler Otomatik tasarlanmış simgesi ile işaretlenir.

Qlik Cloud Analizleri, AutoML'de kullanmak üzere seçtiğiniz eğitim veri kümesinin profilini çıkardığında, belirli veri türlerini tarih özelliği türüne bağlar. Bu, aşağıdaki veri türlerini içerir:

  • Tarih

  • Tarih saat

  • Zaman

  • Zaman Damgası

Profil oluşturma sırasında bu veri türlerinden herhangi birine atanan özelliklere tarih özellik türü verilir. Veri alanlarınız için görüntülenebilecek mevcut profil istatistikleri hakkında bilgi için bk. Profil Listesi görünümü.

Mümkün olduğunda AutoML, tarih özelliği türüne sahip uygun ana özelliklerden oluşturulabilecek otomatik tasarlanmış tarih özelliklerinin bir listesini görüntüler. Otomatik tasarlanmış tarih özellikleri varsayılan olarak deneye dahil edilir. Bunları dahil etmeyi seçerseniz yeni özellikler deneyin v1 sürümünden sonra oluşturulur.

Bilgi notuTarih veya zaman damgası barındıran özellikler içeriyorsa 29 Ağustos 2023'ten önce eğitilen modellerin yeniden eğitilmesi önerilir.

Otomatik tasarlanmış tarih özellikleri sayısal özellik tipine sahiptir. Varsayılan olarak deneye dahil edilirler ancak isteğe bağlıdırlar. Deney eğitimine başlamadan önce veya bir sonraki deney sürümünü yapılandırırken bunların bir kısmını veya tamamını kaldırabilirsiniz. Otomatik tasarlanmış tarih özellikleri dahil edildiğinde, orijinal ana tarih özelliği deneyden çıkarılır.

Bunun yerine üst tarih özelliğini deneye dahil edebilirsiniz. Bunu yapmayı seçtiğinizde, ana özelliğin özellik türü tarihten kategorik özelliğe değiştirilir ve otomatik tasarlanmış tarih özellikleri artık kullanılamaz. Makine öğrenimi modellerinize gelişmiş performans sağladıkları için denemenizde mevcut otomatik mühendislik özelliklerini kullanmanız önerilir.

Otomatik tasarlanmış tarih özellikleri, Qlik Cloud aboneliğinizde belirtilen AutoML veri kümesi boyutuna (eğitim veri kümelerindeki ve uygulama veri kümelerindeki maksimum hücre sayıları) dahil değildir. Yalnızca orijinal tarih sütunu hücreleri sayılır.

Bir üst tarih özelliği olan "Fatura Tarihi"nden üretilebilen otomatik mühendislik özelliklerini gösteren şema görünümü. Her bir özelliğin Veri türü ve Özellik türü arasındaki farka dikkat edin.

Deney eğitiminde, tarih özelliği olarak tanımlanan ana özelliği ve ondan oluşturulabilecek olası otomatik mühendislik özelliklerini gösteren şema görünümü.

Tarih özelliklerini deney hedefi olarak kullanma

Deneyinizin hedefi olarak tarih ve saat bilgisi içeren bir özellik kullanmak istediğiniz nadir durumlarda, sütunun özellik türü tarihten kategorik hale getirilir ve otomatik tasarlanmış özellikler kaldırılır. Başka bir hedef seçerseniz daha sonra tarih ve saat özelliğini normal bir özellik olarak eklemek isterseniz gerekirse manuel olarak tarih özelliği türüne geri döndürmeniz gerekir. Özelliği tarih özelliği türüne döndürürseniz otomatik tasarlanmış tarih özellikleri yeniden oluşturulur.

Özellik türlerinin nasıl değiştirileceği hakkında daha fazla bilgi için bk. Özellik türlerini değiştirme.

Mevcut otomatik tasarlanmış tarih özellikleri

AutoML, veri kümenizdeki bir sütundan otomatik tasarlanmış tarih özellikleri oluştururken, her bir bileşeni kendi sütununda izole ederek her bir tarih ve tarih zaman değerinin belirli bileşenlerini ayıklayıp hesaplar. Aşağıdaki tabloda AutoML tarafından oluşturulabilen otomatik mühendislik özellikleri listelenmektedir.

Bir tarih ve saat özelliğinden türetilebilen otomatik tasarlanmış özelliklerin listesi
Otomatik tasarlanmış özellikler Veri türü Özellik türü Açıklama
YEAR Tamsayı Sayısal Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan yıl alanı.
MONTH Tamsayı Sayısal Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan ay alanı.
DAY Tamsayı Sayısal Doğrudan kaynak tarih veya zaman damgasından ayrıştırılan gün alanı.
HOUR Tamsayı Sayısal Doğrudan kaynak zaman damgasından ayrıştırılan saat alanı.
MINUTE Tamsayı Sayısal Doğrudan kaynak zaman damgasından ayrıştırılan dakika alanı.
SECOND Tamsayı Sayısal Doğrudan kaynak zaman damgasından ayrıştırılan saniye alanı.
DAYOFWEEK Tamsayı Sayısal Kaynak gün, ay ve yıldan hesaplanan haftanın günü.
WEEK Tamsayı Sayısal Kaynak gün, ay ve yıldan hesaplanan yılın haftası.

Oluşturulan her yeni özellik için, orijinal sütun adının sonuna ilgili otomatik mühendislik özelliği eklenir.

Deney yapılandırma bölmesinde otomatik tasarlanmış tarih özellikleri

Otomatik tasarlanmış özellikleri gösteren deney yapılandırma bölmesindeki Özellikler bölümü.

Tahminlerde otomatik olarak tasarlanmış tarih özellikleri

Bir model oluşturmak için eğitim veri kümesi kullanılırken otomatik tasarlanmış tarih özellikleri oluşturulur ve bu özellikler dağıtılır, ayrıca yeni veriler (uygulama veri kümesi) üzerinde tahminler yapmak için bir ML dağıtımı olarak kullanılır.

Otomatik tasarlanmış tarih özellikleriyle eğitilen bir model tahminler yapmak için dağıtıldığında, tahminler oluşturduğunuz uygulama veri kümesinin otomatik tasarlanmış tarih özelliklerini içermesi gerekmez. AutoML, tahmin yapmadan önce uygulanan veri kümesi için otomatik tasarlanmış özellikler oluşturur. Ancak uygulanan veri kümesinin üst tarih özelliğini içermesi ve sütunun Tarih, Tarih Saati, Zaman Damgası veya Saat veri türüne sahip olarak profilinin çıkarılmış olması gerekir.

SHAP ve apply veri kümeleri de dahil olmak üzere bir ML dağıtımı tarafından oluşturulan tahmin veri kümeleri, otomatik tasarlanmış tarih özelliklerini içerecektir.

Gerçek zamanlı tahminlerde otomatik tasarlanmış tarih özellikleri

Gerçek zamanlı tahminler API'sinin tarih ve zaman damgası alanlarınızı işleyebilmesi için, gerçek zamanlı tahminler API'sine gönderdiğiniz JSON yükü aşağıdaki gerekliliklere uygun olmalıdır:

  • Tarih ve tarih saat değerleri ISO 8601 standartlarına uygun olarak biçimlendirilmiş dizeler olmalıdır

  • Her sütundaki verilerin aynı saat diliminde olması gerekir

Bilgi notuModelinizi eğitmek için kullandığınız veriler bu gerekliliklere uymak zorunda değildir.

Serbest metin verilerini yönetme

Serbest metinler (örneğin formlara girilen metin dizesi verileri), bir modelde faydalı olabilmeleri için makine öğrenimi algoritmaları tarafından özel olarak işlenmeyi gerektirir. Qlik AutoML'de serbest metinlerin işlenmesi, otomatik bir özellik mühendisliği biçimidir. Teknik olarak bu işlemede, TF-IDF (terim sıklığı - ters belge sıklığı) yöntemi kullanılır.

AutoML, İngilizce serbest metin verileriyle özellikler için ayrı işlemeyi destekler.

Eğitim verilerinizdeki bir sütun serbest metin içeriyorsa buna serbest metin özellik türü atanır. Bu, yüksek niceliğe (çok fazla benzersiz değer) sahipse kesinlikle tavsiye edilmese de kategorik bir özellik olarak da kullanılabilir.

Bir deneyde serbest metin özellikleri olarak kullanılmak üzere en fazla üç sütun seçebilirsiniz.

Bilgi notu23 Ocak 2024'ten önce eğitilen ve serbest metin verilerinden oluşan alanlar kullanan modellerin yeniden eğitilmesi önerilir.

Serbest metin kodlaması için gereklilikler

Serbest metin olarak başarıyla kodlanması için serbest metin içeren bir sütun iki gerekliliği karşılamalıdır. Bu gereklilikler, deney oluşturma sürecinin farklı aşamalarında kontrol edilir.

Gereksinimler şöyledir:

  • Sütunun ortalama en az 50 karakter içermesi gerekir.

  • Sütunun ortalama sözcük uzunluğu en az beş sözcük olmalıdır.

Bir özelliği serbest metin olarak ele alma

Bir özelliği serbest metin olarak ele alma süreci aşağıdaki gibidir:

  1. Eğitim verilerinizi seçtiğinizde Qlik AutoML, serbest metin olarak işlenebilecek özellikleri tanımlar. Bunlar, şema görünümünde Olası serbest metin içgörüsüyle işaretlenir ve serbest metin özellik türüne sahip olur.

  2. Deneyin 1. sürümünü çalıştırmanızın ardından ek analiz tamamlanır. Bu noktada, başlangıçta olası serbest metin olarak işaretlenen özelliklerin serbest metin özellikleri olarak kullanılamayacağı görülebilir.

    Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahipse deneyse bunların seçimini kaldırmanız önerilir. Bu özellikler, kategorik olarak ele alındıklarında model performansına değer katmaz.

    Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahip değilse bunları, Kategorik olarak ele al'a tıklayarak veya serbest metin olan Özellik türlerini kategorik olarak değiştirerek dahil edebilirsiniz. Özellik türünü serbest metin olarak bırakırsanız aynı zamanda dahili şekilde kategorik olarak ele alınacak ve etki kodlaması yapılacaktır.

Ön işleme hakkında tüm ayrıntılar için bkz. Otomatik veri hazırlama ve dönüştürme.

Şema görünümünde gösterilen içgörülerin her biri hakkında daha fazla bilgi için bkz. Eğitim verileri hakkında içgörüleri görüntüleme.

Bir serbest metin özelliğini deney hedefi olarak kullanma

Nadir durumlarda bir serbest metin özelliği, hedef olarak seçilebilir. Özellik, serbest metin kodlaması için tüm gereklilikleri karşılıyorsa ve iki ila on benzersiz değer içeriyorsa hedef olarak kullanılabilir. Bu senaryolarda deney, standart bir ikili sınıflandırma veya çok sınıflı sınıflandırma sorunu olarak tanımlanır.

Tahminlerde serbest metin özellikleri

Serbest bir metin özelliğiyle eğitilen bir modeli dağıttığınızda ortaya çıkan ML dağıtımı, uygulama veri seti için aşağıdaki gereklilikler karşılandığı sürece tahmin üretebilir:

  • Özelliğin eğitim veri setindeki ve uygulama veri setindeki sütun adları eşleşir

  • Eğitim verisinde serbest metin özelliğine karşılık gelen uygulama veri setindeki sütunda dize verileri bulunur

Uyarı notuYukarıdaki gereklilikler karşılandığı sürece tahmin başarıyla çalışacaktır. Diğer bir deyişle, uygulama veri setinde karşılık gelen sütun gerçekte serbest metin içermese bile tahmin başarıyla çalışacaktır. Bu durumda üretilen bir tahmin güvenilir olarak kabul edilmez. Uygulama veri setinizde, eğitim verilerinizdeki bir serbest metin özelliğine karşılık gelen eş değer sütunun serbest metin içerdiğinden her zaman emin olun.

Dikkat edilmesi gereken noktalar

Deneyinize serbest metin özellikleri eklemek, deneyin ve deneyi çalıştırmak için gereken işlemlerin karmaşıklığını artırır. Serbest metin verilerinizin yeterince karmaşık olması durumunda Permutation importance grafikleri, sonuçta oluşan modeller için kullanılamayabilir.

Sorun giderme

Bir modeli eğitmek için serbest metin verileri kullanmak yoğun kaynak kullanımı gerektiren bir süreçtir. Özellik olarak çok sayıda benzersiz sözcük içeren serbest metin sütunları eklediğinizde bir hatayla karşılaşabilirsiniz.

Bu hataları çözmek için bazı yönergeler burada verilmiştir:

  • Daha az serbest metin satırı eklemek için eğitim veri setinizdeki veri alt kümesini azaltın.

  • Model eğitimine eklemeniz gerekmeyen serbest metin özelliklerini kaldırın.

  • Bir veya daha fazla serbest metin sütununu serbest metin yerine kategorik özellikler olarak ele alın. Bu serbest metin özelliklerinin yüksek nicelik içerdiği durumlarda bu çözümün önerilmediğini unutmayın.

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!