Sınırsız eğitim verisine sahip 2 sınıflandırıcıyı karşılaştırma

kanzen_master

2012-11-12 14:31:18 UTC

view on stackexchange narkive permalink

"Sınırsız" gürültülü eğitim veri kümeleriyle eğitilebilen, yani eğitim için istediğiniz kadar veri kullanabileceğiniz, bu tür veriler çok gürültülü olan 2 metin sınıflandırıcı C1 ve C2'yi karşılaştırmak istiyorum. Aşağıdaki 2 seçeneği düşünüyorum. Hangisi daha iyi olurdu?

1) Veri boyutu boyutu aralığı 0-z ayarlayın, z çok büyük bir sayıdır. C1'in maksimum doğruluğu puanladığı x veri kümesi boyutunu belirleyin (ör. Bir öğrenme eğrisi kullanarak). Sonra C2'yi bu tür bir veri seti boyutu x ile eğitin.

2) C1'in öğrenmeyi durdurduğu y veri seti boyutunu belirleyin (örneğin, öğrenme eğrisinin çok küçük eğimi). Sonra C2'yi böyle bir veri kümesi boyutu y ile eğitin.

Lütfen sınıflandırıcıları karşılaştırma yöntemini sormadığımı, ancak 2 sınıflandırıcının karşılaştırılması gereken eğitim veri kümesi boyutuna nasıl karar vereceğimi sormuyorum.

Düzenleme: Aşağıda bir sınıflandırıcı için öğrenme eğrisi verilmiştir. X ekseni eğitim veri kümesi boyutudur, Y ekseni doğruluktur. İki sınıflandırıcıyı karşılaştırmak amacıyla, en yüksek doğruluğun bulunduğu boyutu (kırmızı) veya doğruluğun (aşağı yukarı) sabit kaldığı boyutu (yeşil) seçmeli miyim?

enter image description here

Düzenleme2 : @cbeleites @Dikran Marsupial Bilgi eksikliğinden dolayı özür dilerim:

Sorunumda 3 sınıfım var.
Yukarıdaki öğrenme eğrisi, 1.000 örnek / sınıftan (toplam 3.000) 140.000 örnek / sınıfa (toplam 420.000) kadar eğitim veri kümesi boyutu artırılarak oluşturuldu; her artış adımı için 1.000 yeni örnek / sınıf (toplamda 3.000) ekleniyor ve eğitilen model, 350 örnek / sınıftan (toplam 1.050 örnek) oluşan aynı test veri kümesiyle her yineleme için test ediliyor
Eğitim veri kümesi örnekleri otomatik olarak etiketlendi, test örnekleri manuel olarak etiketlendi

Grafiğe * öğrenme eğrisi * demezdim: bu sadece bir örnek. Her şeyden önce, bize tam olarak nasıl üretildiğini bize söylemelisiniz: "Büyüyen" bir veri kümesi mi, yani birbiri ardına bir örnek ekleniyor ve model yeniden hesaplanıyor ve her ek (grup) örneklemden sonra yeniden değerlendiriliyor ( s)? Bu eğrinin her noktası için bağımsız bir $ n $ örnek kümesi var mı? Sonra, varyansı tahmin etmeniz gerekir: yeni veri kümeleri ne kadar farklılık gösterir? Ayrıca, modeliniz kaç sınıfı ayırt ediyor? Doğruluğu ölçmek için kullandığınız test numunelerinin sayısını da belirtmelisiniz.

Kesinlikle sonuçlara baktıktan sonra bir nokta seçmeyin, çünkü bu esasen özenli bir seçimdir ve iyimser bir şekilde önyargılı bir performans tahminiyle sonuçlanacaktır. Bağımsız veri örnekleriyle algoritmanın birden çok çalışmasından elde ettiğiniz eğrileri görmek ilginç olurdu. Eğer hepsi böyle görünüyorsa (ortalama dahil), yöntemde bir sorun olduğunu gösterir.

Teşekkürler. Ana gönderide yukarıdaki "öğrenme eğrisi" ile ilgili bilgilerle güncelledim. @Dikran Marsupial: Teşekkürler. Farklı bir test setiyle veya her bir eğri için farklı eğitim veri setleriyle farklı öğrenme eğrilerini çizmeyi mi kastediyorsunuz?

evet, farklı test ve eğitim setleriyle. Esasen soru, test ve eğitim setleri oluşturmak için verilerin rastgele örneklenmesi beklentisi alındığında eğrinin beklenen şeklinin ne olduğudur. Eğrinin şeklinin verilerin örneklenmesinden kaynaklandığından ve anlamlı olmadığından şüpheleniyorum.

@kanzen_master: farklı test setleri, sonlu test örneklem büyüklüğünden kaynaklanan varyansı değerlendirmenize izin verir. Farklı eğitim setleri, eğitim örneklem boyutu $ n $ için ortalama doğruluk etrafında (doğru) doğruluk varyansını gösterir.

@kanzen_master:, 1050 test örneğinin 525 doğruluğu ile,% 95 güven aralığı kabaca $ (50 \ pm 3) $% doğruluktur (R'de `binom :: binom.confint` ile hesaplama). Gördüğünüz farklılıklar, test belirsizliğinden kaynaklanıyor olabilir.

@cbeleites Anlıyorum ... Yani, varyansların 2 nedeni var, biri sonlu eğitim ve biri de sonlu test seti için ...

@DikranMarsupial Tamam, o zaman farklı öğrenme eğrilerini çizmek için daha fazla eğitim verisi toplayacağım ve test verilerini böleceğim. Son olarak, öğrenme eğrileri arasında düşük bir fark elde edene kadar bunu yapmaya devam etmeli miyim? Ve varyansın düşük olup olmadığını nasıl bilebilirim? (görsel inceleme? bazı eşiklere kıyasla?). * Bu arada, ilgili araştırma yalnızca rastgele bir eğitim veri boyutu (yani 100.000 / sınıf) kullanıyor ve k-kat çapraz doğrulama / uzatılmış değerlendirme kullanarak karşılaştır ...

Önyükleme / çapraz doğrulama hakkında güncelleme

Veriye dayalı model optimizasyonu