Neden aşırı uyumu bu kadar önemsediğimizi merak ediyorum.İstatistiksel modellerin bize bazı bilgileri anlatan araçlar olduğunu biliyoruz, ancak tam olarak doğru bile değiller.
Neden aşırı uyumu bu kadar önemsediğimizi merak ediyorum.İstatistiksel modellerin bize bazı bilgileri anlatan araçlar olduğunu biliyoruz, ancak tam olarak doğru bile değiller.
Box'tan alıntı, "Tüm modeller yanlış, ancak bazıları kullanışlıdır" satırları üzerindedir.
Fazla uyum sağlamazsak, modelimiz yeni verilerle ilgili tahminlerde bulunmada faydalı olmayacaktır.
"Tüm modeller yanlış" olsa bile neden aşırı uyum konusunda endişeleniyoruz?
Sorunuz Nirvana yanlışlığının bir varyasyonu gibi görünüyor ve dolaylı olarak mükemmel bir model yoksa her modelin eşit derecede tatmin edici olduğunu (ve bu nedenle modellerdeki kusurların alakasız olduğunu) öne sürüyor. Aynı soruyu bir modeldeki herhangi bir kusur hakkında da kolayca sorabileceğinizi gözlemleyin:
"Tüm modeller yanlış" olsa bile neden maksimum olasılık tahmini hakkında endişeleniyoruz?
"Tüm modeller yanlış" olsa bile neden standart hatalar konusunda endişeleniyoruz?
"Tüm modeller yanlış" olsa bile neden verilerimizi temizleme konusunda endişeleniyoruz?
"Tüm modeller yanlış" olsa bile neden doğru aritmetik konusunda endişeleniyoruz?
Bu tür tüm soruların doğru yanıtı, mükemmeli iyinin düşmanı haline getirmemeliyiz - "tüm modeller yanlış" olsa bile, daha az yanlış , daha yanlış bir modele tercih edilir.
Tam alıntı "Tüm modeller yanlış, ancak bazıları kullanışlıdır" şeklindedir.Aşırı uyumu önemsiyoruz, çünkü modellerimizin hala faydalı olmasını istiyoruz.
Sapma-sapması değiş tokuşuna aşina iseniz, "tüm modeller yanlış" ifadesi kabaca "tüm modellerde sıfır olmayan sapmaya sahiptir" demeye eşdeğerdir.Aşırı uydurma, bir modeldeki önyargıyı azaltmak için parametre sayısını artırabilsek de, tipik olarak ne kadar çok parametreye sahip olursak, tahminimizde o kadar fazla varyans olacağı sorunudur.Yararlı bir model, önyargıyı azaltmak için yeterince esnek olmakla birlikte, varyansın çok yüksek olacağı kadar esnek olmayan bir modeldir.
Citroën 2CV, pek çok açıdan kötü bir arabadır. Yavaş, rafine edilmemiş ve ucuz. Ancak çok yönlüdür ve hem asfalt yolda hem de yeni sürülmüş tarlalarda etkili bir şekilde çalışabilir.
Karşılaştırıldığında, bir F1 aracı, otomotiv mühendisliğinin zirvesi olarak görülüyor. Hızlı, hassas ve yalnızca en iyi bileşenleri kullanarak. Yine de açık bir arazide bir tane sürmek istemem.
2CV genel uygulanabilirliğe sahipken, F1 aracı yalnızca çok özel uygulanabilirliğe sahiptir. F1 aracı, yüksek performanslı çalışmadan kaynaklanabilecek sorunları izlemek, değerlendirmek ve çözmek için profesyonel mühendislerden oluşan bir ekibin sağladığı avantajla, bir yarış pistinde olabildiğince çabuk dönme özel sorununa fazlasıyla uyum sağladı.
Benzer şekilde, fazla donatılmış bir model, fazla takıldığı durumlarda iyi performans gösterir, ancak başka yerlerde yetersiz (veya hiç) olmaz. Genel uygulanabilirliğe sahip bir model, belirli modeller kadar iyi olmasa bile kontrolünüz dışındaki farklı ortamlara maruz kalacaksa daha faydalı olacaktır.
Diğerlerinin de belirttiği gibi, tam alıntı "tüm modeller yanlış, ancak bazıları kullanışlıdır" şeklindedir.
Bir veri kümesini fazla sığdırdığımızda, kullanışlı olmayan bir model oluştururuz. Örneğin, bazı veriler oluşturalım: set.seed (123)
x1 <- rnorm (6) x2 <- rnorm (6) x3 <- rnorm (6) x4 <- rnorm (6) y <- rnorm (6)
her biri N = 6 olan ve her biri standart normal olan 5 değişken oluşturur.
Şimdi bir model koyalım:
overfit <- lm (y ~ x1 + x2 + x3 + x4)
Modelin $ R ^ 2 $ değeri 0,996'dır. x2'nin anlamlı bir p değeri vardır ve x4 neredeyse sig'dir. (her zamanki 0.05 düzeyinde).
Katsayıları:
Tahmini Std. Hata t değeri Pr (> | t |)
(Kesişme) -0.54317 0.08887 -6.112 0.1032
x1 2.01199 0.14595 13.785 0.0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1.21557 0.15086 8.058 0.0786.
---
Signif. kodlar: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 "1
Kalan standart hata: 1 serbestlik derecesinde 0.1601
Çoklu R kare: 0.9961, Düzeltilmiş R kare: 0.9805
F istatistiği: 4 ve 1 DF'de 64.01, p değeri: 0.09344
Verilere neredeyse mükemmel şekilde uyar, ör. deneyin
arsa (tahmin (fazla sığdırma), y)
Ancak hepsi rastgele gürültü.
Bu modeli başka verilere uygulamaya çalışırsak, önemsiz oluruz.
Her modelde bir hata vardır. En iyi model, tahminleriyle ilişkili hatayı en aza indirendir. Bu nedenle, modeller tipik olarak verilerin yalnızca bir kısmı (örneklem içi) kullanılarak oluşturulur ve ardından kalan 'örneklem dışı' veri kümesine uygulanır. Aşırı yerleştirilmiş bir model, tipik olarak uygulamada iyi formüle edilmiş bir modelden daha büyük bir tahmin hatasına sahip olacaktır. Ek olarak, bir model entelektüel olarak sağlam olmalıdır: rejim değişikliği durumunda hiç işe yaramıyorsa, tek bir 'rejimde' çalışan bir model inşa etmenin bir anlamı yoktur. Böyle bir model, rejim değişene kadar çok iyi oluşturulmuş görünebilir çünkü esasen böyle bir model 'örneklem içinde' inşa edilmiştir. Bunu söylemenin bir başka yolu, modelin beklenen hatasının da iyi formüle edilmesi gerektiğidir. Ayrıca, temelde modelin, modellenen sistemi tanımlamak için gereken en az sayıda değişkeni kullanarak mümkün olan en basit model olması gerektiğine dair felsefi bir fikir olan 'Occam's Razor' meselesi de var. Bu, sabit bir kuraldan ziyade yararlı bir kılavuz görevi görür, ancak kullanımla ilişkili uyumdaki doğal iyileştirmeyi ayarlamak için R kare yerine "ayarlanmış R kare" yi kullanmanın arkasındaki fikrin bu olduğuna inanıyorum. daha fazla değişken (örneğin, her veri parçası için ayrı bir değişkeniniz olsaydı, mükemmel uyum,% 100 R kare olur!). Aynı zamanda modern makine öğrenimi tekniklerine uygulanması gereken bir fikirdir: Bir ML algoritmasındaki binlerce değişken, milyonlarca veriye sahip değilseniz tehlikelidir (ve o zaman bile ... önce değişkenlerin sayısını azaltmak için verilerinizi dönüştürmeniz daha iyi olabilir). Son bir nokta: Her model inanç gerektirir. Fizik yasalarımız bile gözleme dayanmaktadır ve aslında Newton fiziğinden çok küçük (Kuantum mekaniği) ve çok büyük (Genel Görelilik) alemlerine geçerken modifikasyon gerektirmiştir. Mevcut Fizik yasalarımızın gelecekte veya hatta geçmişte (örneğin, büyük patlama zamanında) geçerli olacağını kesin olarak söyleyemeyiz. Ancak Occam'ın tıraş makinesine olan felsefi inancımıza hitap etmek, bu modelleri ve fikirleri kabul etmemize neden oluyor çünkü bunlar, gözlemlerimize ve verilerimize uyan, şimdiye kadar tasarlanmış en basit modeller.
Özetle, katı ve hızlı kurallar yoktur.Karmaşık (kaotik?) Dinamik bir sistem, örneğin küresel ekonomi hayal edin.Kısa bir süre için iyi çalışan, iyi biçimlendirilmiş bir model oluşturabilirsiniz.Ancak 'rejim değişikliği' çok gerçek bir konudur: ekonomik sistem oldukça karmaşıktır ve doğrusal değildir ve ölçebileceğinizden çok daha fazla değişken vardır, bu, örneklem içi rejimde hiçbir sonucu olmayabilir, ancak çok önemlidir.başka bir 'rejimde'.Ancak kısa, esasen örneklem içi döneminizde, doğrusal regresyonun oldukça iyi çalıştığını fark edebilirsiniz.Sağduyu hakim olmalıdır: Bazen çok karmaşık bir model gereklidir, ancak tahminleriyle ilişkili hata bilinmiyorsa bu model büyük ölçüde geçersiz kılınmalıdır.
Doğru bir istatistikçinin bundan çok daha iyi bir cevap vereceğinden eminim, ancak yukarıdaki noktalardan hiçbiri henüz yapılmamış gibi göründüğünden, kafamı dışarı çıkaracağımı düşündüm ...
Tüm modeller yanlış, ancak bazıları diğerlerinden daha az yanlış.
Aşırı uyum, genellikle modelinizi gerçek dünya verileriyle uğraşırken daha yanlış yapar.
Bir doktor kanser olup olmadığınızı teşhis etmeye çalışsaydı,% 50 oranında ( çok yanlış) yoksa% 0,1 oranında (çok daha az yanlış) yanılıyor olmasını ister miydiniz??
Ya da, modeliniz bunun müşterinin daha sonra bir şey satın almasına yol açacağını öngörüyorsa bir şeyi ücretsiz verdiğinizi varsayalım.Müşterilerin bir şeyleri daha sonra satın alması (oldukça yanlış) veya çoğu müşterinin bir şeyleri daha sonra satın almak için geri gelmesi (daha az yanlış) arasında bir fark yaratmadan birçok şeyi ücretsiz olarak vermeyi mi tercih edersiniz?
Açıkçası daha az yanlış daha iyidir.