Soru:
Lojistik regresyon için minimum gözlem sayısı?
user333
2011-06-08 23:33:54 UTC
view on stackexchange narkive permalink

3 sayısal değişkenli ikili lojistik regresyon çalıştırıyorum. Tüm girdi değişkenleri sıfırsa olasılığın sıfır olması gerektiğinden modellerimdeki kesişmeyi bastırıyorum.

Kullanmam gereken en az gözlem sayısı nedir?

Bunu yapmak için $ - \ infty $ kesişmesine ihtiyacınız var! Tüm bağımsız değişkenler sıfır olduğunda, 0 kesişim noktası $ \ frac {1} {1 + \ exp (-0)} = 1/2 $ olasılığına karşılık gelir, $ 0 $ değil.
Burada ilgili bir tartışma var: [lojistik regresyon için örneklem boyutu] (http://stats.stackexchange.com/questions/26016/).
Dört yanıtlar:
#1
+19
Frank Harrell
2011-06-09 07:45:11 UTC
view on stackexchange narkive permalink

Sağlam bir başlangıç ​​noktasına ulaşmanın bir yolu var. Hiçbir eşdeğişken olmadığını varsayalım, bu nedenle modeldeki tek parametre kesişimdir. Gerçek kesişme sıfır civarında olduğunda tahmin edilen olasılığın% 95 güven ile gerçek olasılığın 0.1 içinde olması için kesişme tahmininin yeterince kesin olmasına izin vermek için gereken örnek boyutu nedir? Cevap n = 96'dır. Ya bir ortak değişken varsa ve bu 0,5'lik bir yaygınlığa sahip ikili ise? Prob [Y = 1 | X = x] 0.1'i geçmez. 0,95 güven düzeyinde gerçek bir $ p $ olasılığını tahmin etmede $ \ delta $ hata payı elde etmek için gereken örneklem boyutunun genel formülü $ n = (\ frac {1.96} {\ delta}) ^ {şeklindedir. 2} \ times p (1-p) $. En kötü durum için $ p = 0.5 $ ayarlayın.

Bu forumdaki yardımınız için teşekkür ederim.~ 90000 olayım ve ~ 2000000 olayım yok.65 öngörücüye sahip bir lojistik modele ihtiyacım var.Şimdi nasıl ve kaç tane örnek alabilirim?aslında sorum http://stats.stackexchange.com/questions/268201/how-to-increase-mcfadden-score-and-choose-proper-predictor-for-binary-logistic-r ile ilgili.
Etkili numune büyüklüğünüzle aynı anda 65'i takmak sorun değil.
ancak psudo r karesini düşük olarak aldığım için çok fazla örneğin soruna neden olabileceği öne sürüldü.
Dalgamı geçiyorsun?Büyük bir örneklem kullanıldığında $ R ^ 2 $ düşükse, bu gerçek $ R ^ 2 $ değerinin en doğru tahminidir ve gözlemleri düşürmek modelin performansını iyileştirmeyecektir;sadece daha da kötüleştirecek.$ R ^ 2 $ 'ı, $ c $ -index (uyum olasılığı; ROC alanı) gibi anlaşılması daha kolay diğer ölçütlerle tamamlayın.Ve her şeyden önce, sonuç kategorisi frekanslarını "dengelemek" için herhangi bir tavsiyeyi göz ardı edin.
Bu aşamada en yararlı belirleyiciyi bulmak için bunun için glmnet kullanmam gerekir mi?
#2
+9
Dikran Marsupial
2011-06-09 00:10:59 UTC
view on stackexchange narkive permalink

Gerçekte minimum sayıda gözlem yok. Esasen, ne kadar çok gözleminiz olursa, modelinizin parametreleri veriler tarafından o kadar fazla kısıtlanır ve model o kadar güvenli hale gelir. Kaç gözleme ihtiyacınız olduğu, sorunun doğasına ve modelinizde ne kadar emin olmanız gerektiğine bağlıdır. Bu tür şeyler hakkında "pratik kurallara" çok fazla güvenmenin iyi bir fikir olduğunu sanmıyorum, ancak elde edebileceğiniz tüm verileri kullanın ve model parametreleriniz ve tahminleriniz üzerindeki güven / güvenilir aralıkları inceleyin.

minimum sayı yok!~ 90000 olayım ve ~ 2000000 olayım yok.65 regresörlü bir lojistik modele ihtiyacım var.Bunun çok fazla örnek olduğu söylendi, çünkü bu ~ 90000 olayı ve ~ 90000 olayı rastgele olarak ~ 2000000 arasından seçtiğim için, örnekler temsili iken örneği azaltmaya çalışıyorum.bu aşamada kaç numune alabilirim ve nasıl.Aslında http://stats.stackexchange.com/questions/268201/how-to-increase-mcfadden-score-and-choose-proper-predictor-for-binary-logistic-r'den bahsediyorum
Hayır bunu yapma
@FrankHarrell'ye katılıyorum (muhtemelen farklı bir nedenden dolayı?)."Sınıf dengesizliği" sorunu, ne kadar çok veri toplarsanız ortadan kalkma eğilimindedir ve eğitim verilerini yapay olarak dengelerseniz, modele operasyonel sınıf frekanslarının 50-50 olduğunu söylüyorsunuz, ki bu muhtemelen doğru değildir ve geçeceksiniz.azınlık sınıfını operasyonel kullanımda sınıflandırır.Bunu yaparsanız, eğitim ve operasyonel sınıf frekanslarındaki farka göre ayarlama yapmak için çıktı olasılıklarını son işlemden geçirin (bu noktada muhtemelen tüm verilerle eğitimle aynı sonucu alacaksınız).
#3
  0
Manoel Galdino
2011-06-09 03:03:32 UTC
view on stackexchange narkive permalink

Güncelleme: @David Harris tarafından yazılan yukarıdaki yorumu görmedim, benimkine çok benziyor. Bunun için özür dilerim. Cevabım çok benzerse, cevabımı silebilirsiniz.

Dikran Marsupail gönderisini ikinci kez eklerim ve iki sentimi eklerim.

Yaptığınız etkilere ilişkin önceki bilgilerinizi göz önünde bulundurun bağımsız değişkenlerinizden bekleyin. Küçük etkiler bekliyorsanız, büyük bir örneğe ihtiyacınız olacaktır. Etkilerin küçük bir numunenin işi yapabileceğinden daha büyük olması bekleniyorsa.

Bildiğiniz gibi, standart hatalar örnek boyutunun bir fonksiyonudur, bu nedenle örnek boyutu ne kadar büyükse standart o kadar küçük hatalar. Dolayısıyla, etkiler küçükse, yani sıfıra yakınsa, yalnızca küçük bir standart hata bu etkiyi algılayabilir, yani sıfırdan önemli ölçüde farklı olduğunu gösterebilir. Öte yandan, etki büyükse (sıfırdan uzak), büyük bir standart hatadan bile önemli sonuçlar doğuracaktır.

Biraz referansa ihtiyacınız varsa Andrew Gelmans'ın Blog'una bir göz atın.

Gelman'ın blogu oldukça büyüyor :-). Aklınızda belirli bir gönderi var mı?
@Whuber, haklısınız, daha spesifik bir şeye işaret etmeliydim. Son zamanlarda küçük efektler ve çoklu karşılaştırmalar hakkında bazı konuşma sunumları var, ancak şu bağlantının yeterli olduğunu düşünüyorum: http://www.stat.columbia.edu/~gelman/research/published/power4r.pdf
yorumlardaki bu bağlantı yok ve bahsedilen blogun belirli bir gönderisine atıf yok
#4
  0
Ahmad
2013-07-20 15:12:22 UTC
view on stackexchange narkive permalink

Kabul edilebilir bir tahmin elde etmek için diğer araştırmacılar tarafından incelenen kuralları uygulamamız gerekiyor gibi görünüyor. Yukarıdaki iki temel kurala katılıyorum (her değişken için 10 gözlem ve Harrell'in formülü). Burada verilerin açığa çıktığı veya tercih belirtildiği bir soru daha var. Hosmer ve Lemeshow kitaplarında ifşa için bir kural sağladı ve Louviere ve Hensher kitaplarında (Belirtilen tercih yöntemleri) belirtilen tercih verileri için bir kural sağladı

Bu, daha kapsamlı bir açıklamadan ve ayrıca eksiksiz ve kesin referanslardan faydalanacaktır.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...