Serbest metin verilerini yönetme
Serbest metinler (örneğin formlara girilen metin dizesi verileri), bir modelde faydalı olabilmeleri için makine öğrenimi algoritmaları tarafından özel olarak işlenmeyi gerektirir. Qlik Predict içinde serbest metinlerin işlenmesi, otomatik bir özellik mühendisliği biçimidir. Teknik olarak bu işlemede, TF-IDF (terim sıklığı - ters belge sıklığı) yöntemi kullanılır.
Qlik Predict, İngilizce serbest metin verileriyle özellikler için ayrı işlemeyi destekler.
Eğitim verilerinizdeki bir sütun serbest metin içeriyorsa buna serbest metin özellik türü atanır. Bu, yüksek niceliğe (çok fazla benzersiz değer) sahipse kesinlikle tavsiye edilmese de kategorik bir özellik olarak da kullanılabilir.
Bir deneyde serbest metin özellikleri olarak kullanılmak üzere en fazla üç sütun seçebilirsiniz.
Serbest metin kodlaması için gereklilikler
Serbest metin olarak başarıyla kodlanması için serbest metin içeren bir sütun iki gerekliliği karşılamalıdır. Bu gereklilikler, deney oluşturma sürecinin farklı aşamalarında kontrol edilir.
Gereksinimler şöyledir:
-
Sütunun ortalama en az 50 karakter içermesi gerekir.
-
Sütunun ortalama sözcük uzunluğu en az beş sözcük olmalıdır.
Bir özelliği serbest metin olarak ele alma
Bir özelliği serbest metin olarak ele alma süreci aşağıdaki gibidir:
-
Eğitim verilerinizi seçtiğinizde Qlik Predict, serbest metin olarak işlenebilecek özellikleri tanımlar. Bunlar, şema görünümünde Olası serbest metin içgörüsüyle işaretlenir ve serbest metin özellik türüne sahip olur.
-
Deneyin 1. sürümünü çalıştırmanızın ardından ek analiz tamamlanır. Bu noktada, başlangıçta olası serbest metin olarak işaretlenen özelliklerin serbest metin özellikleri olarak kullanılamayacağı görülebilir.
Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahipse deneyse bunların seçimini kaldırmanız önerilir. Bu özellikler, kategorik olarak ele alındıklarında model performansına değer katmaz.
Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahip değilse bunları, Kategorik olarak ele al'a tıklayarak veya serbest metin olan Özellik türlerini kategorik olarak değiştirerek dahil edebilirsiniz. Özellik türünü serbest metin olarak bırakırsanız aynı zamanda dahili şekilde kategorik olarak ele alınacak ve etki kodlaması yapılacaktır.
Ön işleme hakkında tüm ayrıntılar için bkz. Otomatik veri hazırlama ve dönüştürme.
Şema görünümünde gösterilen içgörülerin her biri hakkında daha fazla bilgi için bkz. Eğitim verileriniz hakkında içgörüleri görüntüleme.
Bir serbest metin özelliğini deney hedefi olarak kullanma
Nadir durumlarda bir serbest metin özelliği, hedef olarak seçilebilir. Özellik, serbest metin kodlaması için tüm gereklilikleri karşılıyorsa ve iki ila on benzersiz değer içeriyorsa hedef olarak kullanılabilir. Bu senaryolarda deney, standart bir ikili sınıflandırma veya çok sınıflı sınıflandırma sorunu olarak tanımlanır.
Tahminlerde serbest metin özellikleri
Serbest metin özellikleriyle eğitilmiş, dağıtılmış bir modelle tahminleri çalıştırma gereksinimleri hakkında bilgi edinmek için bkz. Tahminlerde serbest metin özellikleriyle çalışma.
Dikkat edilmesi gereken noktalar
Deneyinize serbest metin özellikleri eklemek, deneyin ve deneyi çalıştırmak için gereken işlemlerin karmaşıklığını artırır. Serbest metin verilerinizin yeterince karmaşık olması durumunda Permutation importance grafikleri, sonuçta oluşan modeller için kullanılamayabilir.
Sorun giderme
Bir modeli eğitmek için serbest metin verileri kullanmak yoğun kaynak kullanımı gerektiren bir süreçtir. Özellik olarak çok sayıda benzersiz sözcük içeren serbest metin sütunları eklediğinizde bir hatayla karşılaşabilirsiniz.
Bu hataları çözmek için bazı yönergeler burada verilmiştir:
-
Daha az serbest metin satırı eklemek için eğitim veri setinizdeki veri alt kümesini azaltın.
-
Model eğitimine eklemeniz gerekmeyen serbest metin özelliklerini kaldırın.
-
Bir veya daha fazla serbest metin sütununu serbest metin yerine kategorik özellikler olarak ele alın. Bu serbest metin özelliklerinin yüksek nicelik içerdiği durumlarda bu çözümün önerilmediğini unutmayın.
Sınırlamalar
-
Otomatik serbest metin özellik mühendisliği, yalnızca belirli boyut sınırları dahilindeki eğitim veri kümeleri için kullanılabilir. Daha fazla bilgi için şuraya bakın: Eğitim veri kümesi ve profil oluşturma sınırlamaları.
-
Otomatik serbest metin özellik mühendisliği, zaman serisi deneyleri için kullanılamaz.