C1'in C2'den daha hızlı / yavaş bir öğrenci olup olmadığını ölçmek istediğinizi doğru anlıyor muyum?
Sınırsız eğitim verileriyle, öğrenme eğrilerini kesin olarak oluştururum (ölçerim). Bu, sorduğunuz her iki soruyu da tartışmanıza olanak tanır.
Dikran'ın halihazırda işaret ettiği gibi, öğrenme eğrisinin bir sapma bileşeni olduğu kadar bir önyargı bileşeni de vardır: daha küçük veriler üzerinde eğitim sistematik olarak daha kötü modeller sağlar, ancak daha küçük $ n_ {train ile eğitilen farklı modeller arasında daha yüksek fark vardır } $ hangi sınıflandırıcının daha iyi olduğunu bir tartışmaya dahil edeceğim.
Yeterince büyük test örneği boyutu ile test ettiğinizden emin olun: sayımların oranları (sınıflandırıcı doğruluğu gibi), sonuçlarınızı altüst edebilecek yüksek varyanslardan muzdariptir. Sınırsız bir veri kaynağınız olduğundan, öğrenme eğrilerini üzerlerinde çok fazla ek test hatası olmadan ölçmenin gerçekten mümkün olduğu çok rahat bir durumdasınız.
Sınıflandırma Modelleri için Örneklem Büyüklüğü Planlaması ile ilgili bazı düşünce ve bulguları özetleyen bir makaleyi kabul ettim. DOI henüz çalışmıyor, ancak yine de işte arXiv'de kabul edilen taslak.
Elbette şu anda hesaba katma zamanı hesaplama zamanı. Bununla ilgili bazı düşünceler
-
Ne kadar bilgisayar zamanı harcayacağınız, karşılaştırmanıza neye ihtiyacınız olduğuna bağlı olacaktır.
-
Eğer sadece pratik olarak çalışan bir kurulum bulmakla ilgiliyse, bir karara varma zamanı konusunda da pragmatik olurum.
-
Bilimsel bir soruysa, eski amirime "Bilgisayar saati bilimsel bir argüman değildir" diye alıntı yapardım. Bu, çıkarabileceğiniz sonuçlardan ödün vererek sunucu zamanından birkaç gün veya birkaç hafta tasarruf etmenin iyi bir fikir olmadığı anlamına gelir *.
Dahası, daha iyi hesaplamalar yapmak burada daha fazla zamanınızı gerektirmediği için: Hesaplamaları yapmak için gereken zamanınız, ister ince bir eğitim örneği boyutları ızgarasında ister kaba bir hesaplama yapın, aşağı yukarı aynı zamanı alacaktır. varyansı 1000 yinelemeyle veya yalnızca 10 ile ölçersiniz. Bu, sonuçlarda oldukça hızlı bir "ön izleme" elde etmenize olanak tanıyan bir sırayla hesaplamalar yapabileceğiniz, ardından sonuçları çizebileceğiniz ve sonunda içeri çekebileceğiniz anlamına gelir. ince taneli sayılar.
(*) Ayları veya yılları örnek toplama ve haftalar veya aylar boyunca kolayca geçirebileceğiniz deneysel bir alandan geldiğimi ekleyebilirim. kendilerini bir simülasyonun bir sunucuda çalıştığı şekilde yapmayın.
Önyükleme / çapraz doğrulama hakkında güncelleme
Öğrenme eğrisini ölçmek için çapraz doğrulama veya önyükleme dışı testi kullanmak (yinelenen / tekrarlanan) kesinlikle mümkündür. Uygun bir bağımsız test seti yerine yeniden örnekleme şemalarını kullanmak, küçük bir örneklem büyüklüğündeyseniz, yani iyi bir sınıflandırıcının eğitimi ve performansını doğru şekilde ölçmek için yeterli bağımsız örneğiniz yoksa mantıklıdır. Soruya göre, burada durum böyle değil.
Veriye dayalı model optimizasyonu
Bir genel nokta daha: öğrenme eğrisinden bir "çalışma noktası" (yani burada eğitim örnek boyutu) seçmek, veriye dayalı bir karardır. Bu, başka bir bağımsız test seti ile "nihai" modelin (bu örnek boyutuyla eğitilmiş) başka bir bağımsız doğrulamasını yapmanız gerektiği anlamına gelir. Bununla birlikte, öğrenme eğrisini ölçmek için test verileriniz bağımsızsa ve çok büyük (gerçekten büyük) örneklem boyutuna sahipse, o test setine fazla uyma riskiniz çok dakikadır. Yani Nihai test verileri için performansta bir düşüş bulursanız, bu ya öğrenme eğrisini belirlemek için çok küçük test örneği boyutunu ya da veri analizi kurulumunuzdaki bir sorunu gösterir (veriler bağımsız değil, eğitim verileri test verilerine sızıyor).
Güncelleme 2: sınırlı test örneği boyutu
gerçek bir sorundur. Birçok sınıflandırıcıyı karşılaştırmak (değerlendirdiğiniz her $ n_ {train} $ sonuçta bir sınıflandırıcıya yol açar!), İstatistik açısından çoklu bir test problemidir. Bu, aynı test seti tarafından değerlendirmenin, testin varyans belirsizliğini "gözden kaçırdığı" anlamına gelir. Bu, aşırı uyuma yol açar.
(Bu, Dikran'ın yorumladığı kiraz toplama tehlikesini ifade etmenin başka bir yoludur)
Son değerlendirme için gerçekten bağımsız bir test seti ayırmanız gerekir, eğer Son olarak seçilen modelin doğruluğunu belirtebilmek istiyorsunuz.
Milyonlarca örnekten oluşan bir test setine sığmak zor olsa da, sınıf başına 350 örneği aşmak çok daha kolaydır.
Bu nedenle, yukarıda bağlantılandırdığım makale başlangıçta düşündüğümden daha fazla ilginizi çekebilir: aynı zamanda ne kadar test örneği göstermeniz gerektiğini nasıl hesaplayacağınızı da gösterir örn. bir sınıflandırıcının (sabit hiperparametreli) diğerine üstünlüğü. Tüm modelleri aynı test seti ile test edebileceğiniz için, burada eşleştirilmiş testler yaparak gerekli test örneklem büyüklüğünü bir şekilde azaltabileceğiniz için şanslı olabilirsiniz. 2 sınıflandırıcının ikili karşılaştırması için McNemar testi bir anahtar kelime olacaktır.