Ana içeriğe geç Tamamlayıcı içeriğe geç

Serbest metin verilerini yönetme

Serbest metinler (örneğin formlara girilen metin dizesi verileri), bir modelde faydalı olabilmeleri için makine öğrenimi algoritmaları tarafından özel olarak işlenmeyi gerektirir. Qlik Predict içinde serbest metinlerin işlenmesi, otomatik bir özellik mühendisliği biçimidir. Teknik olarak bu işlemede, TF-IDF (terim sıklığı - ters belge sıklığı) yöntemi kullanılır.

Qlik Predict, İngilizce serbest metin verileriyle özellikler için ayrı işlemeyi destekler.

Eğitim verilerinizdeki bir sütun serbest metin içeriyorsa buna serbest metin özellik türü atanır. Bu, yüksek niceliğe (çok fazla benzersiz değer) sahipse kesinlikle tavsiye edilmese de kategorik bir özellik olarak da kullanılabilir.

Bir deneyde serbest metin özellikleri olarak kullanılmak üzere en fazla üç sütun seçebilirsiniz.

Bilgi notu23 Ocak 2024'ten önce eğitilen ve serbest metin verilerinden oluşan alanlar kullanan modellerin yeniden eğitilmesi önerilir.

Serbest metin kodlaması için gereklilikler

Serbest metin olarak başarıyla kodlanması için serbest metin içeren bir sütun iki gerekliliği karşılamalıdır. Bu gereklilikler, deney oluşturma sürecinin farklı aşamalarında kontrol edilir.

Gereksinimler şöyledir:

  • Sütunun ortalama en az 50 karakter içermesi gerekir.

  • Sütunun ortalama sözcük uzunluğu en az beş sözcük olmalıdır.

Bir özelliği serbest metin olarak ele alma

Bir özelliği serbest metin olarak ele alma süreci aşağıdaki gibidir:

  1. Eğitim verilerinizi seçtiğinizde Qlik Predict, serbest metin olarak işlenebilecek özellikleri tanımlar. Bunlar, şema görünümünde Olası serbest metin içgörüsüyle işaretlenir ve serbest metin özellik türüne sahip olur.

  2. Deneyin 1. sürümünü çalıştırmanızın ardından ek analiz tamamlanır. Bu noktada, başlangıçta olası serbest metin olarak işaretlenen özelliklerin serbest metin özellikleri olarak kullanılamayacağı görülebilir.

    Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahipse deneyse bunların seçimini kaldırmanız önerilir. Bu özellikler, kategorik olarak ele alındıklarında model performansına değer katmaz.

    Serbest metin olarak kullanılamayan özellikler yüksek niceliğe sahip değilse bunları, Kategorik olarak ele al'a tıklayarak veya serbest metin olan Özellik türlerini kategorik olarak değiştirerek dahil edebilirsiniz. Özellik türünü serbest metin olarak bırakırsanız aynı zamanda dahili şekilde kategorik olarak ele alınacak ve etki kodlaması yapılacaktır.

Ön işleme hakkında tüm ayrıntılar için bkz. Otomatik veri hazırlama ve dönüştürme.

Şema görünümünde gösterilen içgörülerin her biri hakkında daha fazla bilgi için bkz. Eğitim verileriniz hakkında içgörüleri görüntüleme.

Bir serbest metin özelliğini deney hedefi olarak kullanma

Nadir durumlarda bir serbest metin özelliği, hedef olarak seçilebilir. Özellik, serbest metin kodlaması için tüm gereklilikleri karşılıyorsa ve iki ila on benzersiz değer içeriyorsa hedef olarak kullanılabilir. Bu senaryolarda deney, standart bir ikili sınıflandırma veya çok sınıflı sınıflandırma sorunu olarak tanımlanır.

Tahminlerde serbest metin özellikleri

Serbest metin özellikleriyle eğitilmiş, dağıtılmış bir modelle tahminleri çalıştırma gereksinimleri hakkında bilgi edinmek için bkz. Tahminlerde serbest metin özellikleriyle çalışma.

Dikkat edilmesi gereken noktalar

Deneyinize serbest metin özellikleri eklemek, deneyin ve deneyi çalıştırmak için gereken işlemlerin karmaşıklığını artırır. Serbest metin verilerinizin yeterince karmaşık olması durumunda Permutation importance grafikleri, sonuçta oluşan modeller için kullanılamayabilir.

Sorun giderme

Bir modeli eğitmek için serbest metin verileri kullanmak yoğun kaynak kullanımı gerektiren bir süreçtir. Özellik olarak çok sayıda benzersiz sözcük içeren serbest metin sütunları eklediğinizde bir hatayla karşılaşabilirsiniz.

Bu hataları çözmek için bazı yönergeler burada verilmiştir:

  • Daha az serbest metin satırı eklemek için eğitim veri setinizdeki veri alt kümesini azaltın.

  • Model eğitimine eklemeniz gerekmeyen serbest metin özelliklerini kaldırın.

  • Bir veya daha fazla serbest metin sütununu serbest metin yerine kategorik özellikler olarak ele alın. Bu serbest metin özelliklerinin yüksek nicelik içerdiği durumlarda bu çözümün önerilmediğini unutmayın.

Sınırlamalar

  • Otomatik serbest metin özellik mühendisliği, yalnızca belirli boyut sınırları dahilindeki eğitim veri kümeleri için kullanılabilir. Daha fazla bilgi için şuraya bakın: Eğitim veri kümesi ve profil oluşturma sınırlamaları.

  • Otomatik serbest metin özellik mühendisliği, zaman serisi deneyleri için kullanılamaz.

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız lütfen bize bildirin!