Why is leave-one-out cross-validation (LOOCV) variance about the mean estimate for error high?

Soru:

xyzzy

2014-03-21 21:55:32 UTC

view on stackexchange narkive permalink

Birini dışarıda bırakarak çapraz doğrulamada (LOOCV), eğitim setlerinin her biri diğerlerine çok benziyor ve yalnızca bir gözlemde farklılık gösteriyor. Test hatasını tahmin etmek istediğinizde, kıvrımlar üzerindeki hataların ortalamasını alırsınız. Bu ortalamanın yüksek bir varyansı var.

Bu ortalamanın $ k $-kat çapraz doğrulama ile karşılaştırıldığında neden daha yüksek varyansa sahip olduğunu anlamanın matematiksel bir formülü, görsel veya sezgisel bir yolu var mı?

Beş yanıtlar:

amoeba

2014-03-21 22:12:37 UTC

view on stackexchange narkive permalink

Bu cevabın orijinal versiyonunda önemli nokta eksikti (o zaman cevap birkaç olumsuz oy aldı). Cevap Ekim 2015'te düzeltildi.

Bu biraz tartışmalı bir konudur.

Genellikle LOOCV'nin $ k $ katlanmış CV'den daha yüksek varyansa sahip olduğu iddia edilir, ve LOOCV'deki eğitim setlerinin daha fazla çakışması nedeniyle böyle. Bu, farklı katlamalardan gelen tahminleri $ k $ katlamalı CV'den daha bağımlı hale getirir, mantık devam eder ve dolayısıyla genel varyansı artırır. Örneğin Hastie ve diğerleri tarafından İstatistiksel Öğrenmenin Unsurları 'ndan bir alıntıya bakın. (Bölüm 7.10.1):

$ K $ için hangi değeri seçmeliyiz? $ K = N $ ile çapraz doğrulama tahmincisi, gerçek (beklenen) tahmin hatası için yaklaşık olarak tarafsızdır, ancak $ N $ "eğitim setleri" birbirine çok benzediği için yüksek varyansa sahip olabilir.

Ayrıca @BrashEquilibrium (+1) tarafından verilen yanıtta benzer bir alıntıya bakın. Çapraz doğrulamada varyans ve önyargı: neden bir dışarıda bırakılan CV daha yüksek varyansa sahip? 'de kabul edilen ve en çok oylanan yanıtlar aynı mantığı veriyor.

ANCAK, Hastie ve ark. herhangi bir alıntı yapmayın ve bu akıl yürütme kulağa mantıklı gelse de, durumun gerçekten böyle olduğuna dair bazı doğrudan kanıtlar görmek istiyorum. Bazen alıntı yapılan bir referans Kohavi 1995 'dir ancak bu iddiada bunu pek ikna edici bulmuyorum.

DAHA FAZLA BİLGİ, burada iki simülasyon var LOOCV'nin 10 kat CV ile aynı veya hatta biraz daha düşük varyansa sahip olduğunu gösterir:

https://stats.stackexchange.com/a/357572.
$ K = N $ (DÖNGÜ) ile $ K $ katlamalı CV ÇOĞU veya EN AZ değişken tahminleri sağlıyor mu ve "kararlılığın" rolü nedir?.
https://stats.stackexchange.com/a/252031 adresinde bağlantısı verilen makaleye de bakın. LOOCV'nin yüksek varyansa sahip olmasının bir "yanılgı" olduğunu söylüyor.

gerileme sezgisini de verebilir misin?

@xyzzy: Aklınızda hangi regresyon problemi olduğunu ve çapraz doğrulamanın bununla tam olarak ne ilgisi olduğunu açıklayabilir misiniz? Sorunuzu yanlış anladıysam, belki güncelleyebilirsiniz. "Hata oranı" ndan bahsettiğiniz için bir sınıflandırma probleminden bahsettiğinizi sanıyordum.

bu temel sezgi için bir sorudur. Sanırım herhangi bir regresyon problemi üzerinde çapraz doğrulama yapabilirsiniz, ancak yine de ortalama kare hatası olarak ölçebileceğiniz tahmin hataları alıyorsunuz. k-kat için varyans oranı N / k kat daha küçük olacaktır?

@xyzzy: Evet, aynı sezginin geçerli olduğunu düşünüyorum. K-kat CV'de, yalnızca 1 yerine her test setinde N / k örneklemeyi düşünüyorsunuz, bu nedenle tahmin hatalarınızın bu N / k örnekleri üzerinden ortalamasını almak (her kattaki ortalama tahmin hatasını elde etmek için), varyansın azalmasına yol açacaktır ( bu ortalama tahmin hataları üzerinden) N / k. Buradaki önemli nokta, test setinizde ne kadar çok numuneye sahip olursanız, her katmanda elde ettiğiniz tahmin / sınıflandırma hatası için o kadar kesin tahmin ve tahminler ne kadar kesin olursa, varyansları o kadar küçük olur.

Ancak tüm $ $ ve $ n $ katları üzerindeki ortalama, sırasıyla aynı sayıda vakanın ortalamasını alır ...

@cbeleites: Evet, kesinlikle. Soruyu tekrarlar üzerinden * değil * kıvrımlar * üzerindeki varyansı sormak olarak anladım. Belki OP ne demek istediğini açıklayabilir.

Tüm kıvrımlar boyunca ortalama tahminde daha yüksek varyansı kastettiğime inanıyorum (LOOCV ve k-kat için). LOOCV'nin ortalama hatada daha yüksek bir varyansa sahip olduğunu duyduğum bir yorumu ayırt etmeye çalışıyorum, çünkü eğitim setlerinin tümü oldukça korelasyonlu. Bunun neden böyle olduğunu nasıl anlayacağımdan emin değilim. Merak ediyorum, bu hem amiplerin hem de cbeleitlerin ima ettiği küçük örneklem büyüklüğünün (1) bir kombinasyonu mu, artı tüm tren gruplarındaki korelasyonla bir ilgisi var, ancak yine de bunu sezemiyorlar. Umarım bu açıktır.

Bu cevap, * tek bir tahminin * varyansının LOO için k-katına göre daha yüksek olduğunu göstermektedir.Ancak yanılmıyorsam, pratikte nihai tahmin, tüm k katları boyunca tahminlerin ortalaması olarak alınır (LOO durumunda k = n ile).Yani ilgili varyans, k tahminlerinin * ortalamasının * varyansı, değil mi?Bu durumda, LOO ve 10-kat örneğiniz için, her iki varyans ifadesi de $ p (1-p) / N $ 'a düşer ve dolayısıyla eşittir.Bu aynı zamanda aşağıdaki Sonuç 2'ye de uyacaktır: http://ai.stanford.edu/~ronnyk/accEst.pdf.Buna yorum yapmak ister misin?Bir şeyi yanlış mı anladım?

Şimdi görüyorum ki, yorumum ortalaması alınan tahminler arasındaki kovaryansı görmezden geliyor.Ama her durumda, ilgi çekici olan araçların varyansı, değil mi?

@Jake, haklısınız, cevabım (bir yıldan fazla bir süre önce) pek bir anlam ifade etmiyor;Ben zaten fark ettim ama bununla başa çıkmayı unuttum.12 olumlu oy alması komik: - / Biraz zamanım olduğunda güncelleyeceğim, ama aslında konuyu çok iyi anlamıyorum.İnsanların, LOOCV'nin yüksek varyansının test setlerinin neredeyse aynı olmasından kaynaklandığını söylediğini biliyorum (Brash'es cevabından alıntıya bakın, +1) ve bu biraz mantıklı geliyor, ancak tüm bu konu benim için tamamen açık değil.

@amoeba Bunu araştırıyordum ve doğru olup olmadığına dair çeşitli kaynaklardan birçok çelişkili ifade buldum.Çoğu kaynak, ilişkilendirilen tahminlerle ilgili bir hisse senedi beyanına sahiptir ve daha sonra ESL'den alıntı yapabilir.En az biri önemli olmadığını söylüyor (önceki alıntıya bakın).Diğer kaynaklar açıkça bunun tersini söylüyor (örneğin, burada s. 60: http://projecteuclid.org/euclid.ssu/1268143839).$ K $ = 2, 5, 10, $ n $ kat sayısını karşılaştıran küçük bir simülasyon çalıştırdım ki bu, en azından çoklu regresyon için varyansın $ k = n $ için en küçük olduğunu gösteriyor.Bulgularımla bir cevap yazmayı düşünüyorum

Bu ilginç, @Jake.Şu anda seyahat ediyorum ve bunun üzerinde çalışmak için çok az zamanım var.Ama kesinlikle bir cevap göndermeyi düşünün.Bununla çok yakından ilgili iki eski konu olduğuna dikkat edin;belki bu bir kopya olarak kapatılmalı, ama belki de kapatılmamalı.İşte konu başlıkları: [K-katlama için kat sayısı] (http://stats.stackexchange.com/questions/61546) ve [Çapraz doğrulamada model farkı ve sapma] (http://stats.stackexchange.com/sorular / 61783).

@Jake, Şimdi cevabımı düzelttim (birkaç olumsuz oyla istenir), ancak bu soruyu başka bir sorunun kopyası olarak kapatmaya da oy verdim.Yine de bu konunun mevcut olanların hepsinden daha düşünceli / ayrıntılı bir cevap gerektirdiğini düşünüyorum.Bu sorunu daha fazla deneyip denemediğinizi merak ediyorum.

@amoeba Sonunda bu sorunla ilgili bir soru göndermeye başladım, kontrol etmek isteyebilirsiniz: https://stats.stackexchange.com/q/280665/5829

Brash Equilibrium

2014-08-04 10:13:09 UTC

view on stackexchange narkive permalink

İstatistiksel Öğrenmeye Giriş 'den

LOOCV gerçekleştirdiğimizde, gerçekte $ n $ yerleştirilmiş modeller, her biri hemen hemen aynı gözlemler üzerinde eğitilmiştir; bu nedenle, bu çıktılar birbirleriyle oldukça (pozitif olarak) ilişkilidir. Bunun aksine, $ k $ -fold CV'yi $ k<n $ ile gerçekleştirdiğimizde, çıktıların ortalamasını alıyoruz her modeldeki eğitim setleri arasındaki örtüşme daha küçük olduğundan, birbirleriyle biraz daha az ilişkili olan $ k $ takılan modellerin toplamı. Yüksek düzeyde korelasyonlu birçok miktarın ortalaması, yüksek düzeyde ilişkili olmayan birçok miktarın ortalamasından daha yüksek varyansa sahip olduğundan, LOOCV'den kaynaklanan test hatası tahmini, $ k $ -fold CV.

Özetlemek gerekirse, seçeneğiyle ilişkili bir sapma-sapma ödünleşimi vardır $ k $ katlamalı çapraz doğrulama içinde $ k $ . Bu hususlar göz önünde bulundurulduğunda, genellikle $ k $ -foldlu çapraz doğrulama $ k = 5 $ ile gerçekleştirilir. veya $ k = 10 $ , çünkü bu değerlerin ne aşırı yüksek sapmadan ne de çok yüksek sapmadan muzdarip test hata oranı tahminleri verdiği deneysel olarak gösterildi.

cbeleites unhappy with SX

2014-03-22 09:51:20 UTC

view on stackexchange narkive permalink

Basit durumlarda cevabın şu olduğunu düşünüyorum: genel ortalama (tüm test durumlarında ve tüm katlamalarda) $ k $ katlama ve LOO doğrulaması için aynı varyansa sahiptir.
Basit burada şu anlama gelir: modeller sabittir, bu nedenle $ k $ veya $ n $ vekil modellerin her biri aynı örnek için aynı tahmini verir (düşünce deneyi: büyük bağımsız test setine sahip vekil modelleri test edin).
Modeller kararlı değilse durum daha karmaşık hale gelir: vekil modellerin her birinin kendi performansı vardır , böylece ek varyansınız olur. Bu durumda, LOO veya $ k $ -fold'un daha fazla ek varyansı olsun * olsun, tüm bahisler açıktır. Ancak, $ k $ katlamalı CV'yi yineleyebilir ve tüm test durumlarının genel ortalamasını alarak tüm $ i \ times k $ vekil modelleri bu ek farklılığı azaltabilir. LOO için böyle bir olasılık yoktur: $ n $ vekil modelleri tüm olası vekil modellerdir.
Büyük varyans genellikle iki faktöre bağlıdır :
- küçük örnek boyutu (küçük örneklem büyüklüğünde olmasaydınız, varyans konusunda endişelenmezdiniz ;-)).
- Yüksek varyanslı hata ölçüsü. Tüm test durumları oranı tipi sınıflandırma hataları yüksek varyansa tabidir. Bu, vakaları sayarak kesirleri tahmin etmenin temel bir özelliğidir. MSE gibi regresyon tipi hataların bu açıdan çok daha iyi bir davranışı vardır.

Sınıflandırma hataları için, aşağıdaki özelliklere bakan bir dizi makale vardır: varyansları da gördüğünüz farklı yeniden örnekleme doğrulama şemaları, örneğin:

(Sanırım benzer belgeler regresyon hataları için de mevcut olabilir, ancak bunların farkında değilim)

* LOO'nun Vekil modeller daha fazla durumla eğitildiği için daha az varyansa sahiptir, ancak en azından belirli sınıflandırma modelleri için LOO çok iyi davranmaz.

Thilanka-minion91

2015-09-26 14:07:34 UTC

view on stackexchange narkive permalink

LOOCV'de k-Katlamalı Çapraz doğrulamada olduğu gibi katlanma yoktur (aslında katlar olarak adlandırılabilirler ancak anlamsız olabilirler). LOOCV'de yaptığı şey, tüm veri kümesinden bir Örneği test verileri için bırakmak ve diğer tüm örnekleri eğitim için kullanmaktır. Bu nedenle, her yinelemede, test etmek için veri kümesinden bir örnek bırakacaktır. Bu nedenle, belirli bir değerlendirme yinelemesinde, test verilerinde yalnızca bir örnek vardır ve geri kalanı eğitim verilerindedir.

Tabakalaşma kullanarak K-kat Çapraz doğrulamada (her bir sınıfın tüm örneklerde yaklaşık olarak eşit orantıyı temsil etmesini sağlayan veri setini dengelemek için gelişmiş bir yöntem kullanılır) tahminlerin varyansını azaltabiliriz.

LOOCV test için yalnızca bir örnek kullandığından, Stratification uygulayamaz. Bu nedenle, LOOCV hata tahminlerinde k-kat çapraz doğrulamaya göre daha yüksek bir varyansa sahiptir.

-1.Burada tabakalaşmanın ne kadar önemli olduğunu anlamıyorum.Bakış açınızı destekleyen referanslarınız var mı?

danuker

2015-06-19 15:49:22 UTC

view on stackexchange narkive permalink

Tek bir soruyla test yapmak gibi - çok daha fazla isabet ve ıskalama.

Bu, bir örneğin ortalamaya göre standart sapmasının sezgisel bir açıklamasıdır - puan Bir grup örnek üzerinde daha az varyans vardır.

İşte bazı daha fazla ayrıntı.

Ve neden böyle?Bunu biraz daha açabilir misin?Şu anda bu bir cevaptan çok bir yorum.

Bu soruya bir cevap vermiyor.Bir yazardan eleştiri yapmak veya açıklama istemek için, gönderisinin altına bir yorum bırakın - kendi gönderilerinize her zaman yorum yapabilirsiniz ve yeterli [itibara] sahip olduğunuzda (http://stats.stackexchange.com/help/whats-reputation)[herhangi bir gönderiye yorum yapabileceksiniz] (http://stats.stackexchange.com/help/privileges/comment).

Daha fazla soru içeren bir sınava girdiğinizde, puanın ortalaması alınır. Ve bir ortalamanın varyansı, tek bir sorudaki varyanstan daha azdır, burada daha fazla ayrıntıya bakın: [Ortalamanın standart sapması] (https://en.wikipedia.org/wiki/Standard_deviation#Standard_deviation_of_the_mean).

@ChristophHanck Tam bir cevap olmasa da, sezgisel bir açıklamadır.

Bu yüzden onun yerine yorum olarak göndermeyi önerdim.

ⓘ

Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.

about - legalese