Soru:
Çoklu doğrusal regresyon modeli için kabul edilebilir r-kare değeri
Steffi
2011-08-21 20:25:18 UTC
view on stackexchange narkive permalink

Şu anda tezim üzerinde çalışıyorum, daha spesifik olarak, üzerinde çalıştıkları projeler hakkında araştırmacılardan toplanan bazı verileri analiz ediyorum.

Sonunda, çoklu doğrusal bir regresyon gerçekleştirdim hangi belirleyicilerin (bütçe, ekip büyüklüğü, ...) bir araştırma projesinin dış etkisini önemli ölçüde etkilediğini doğrulamak için. Bağımlı değişken (proje etkisi) bir anketten (enstitü araştırmacıları arasında yürütülen) değerlendirilirken, bağımsız değişkenler nesnel ölçülere dayanmaktadır.

Böyle bir senaryoda, ne olabilir kabul edilebilir r-kare yüzdesi? Düşük bir yüzde bağımlı değişkenin "öznelliği" ile gerekçelendirilebilir mi? Bilimsel alanın önemli olduğunu duydum ... yani fizikte>% 95 r-karesine ihtiyacınız var, sosyolojide>% 5 zaten ilginç olabilir ...

bununla ilgili herhangi bir referans var mı?

(1) [R-squared: yararlı veya tehlikeli?] (Http://stats.stackexchange.com/q/13314) bilgilendirici bulabilirsiniz. (2) "Önemli ölçüde etkileme" ifadesi ile ilgili olarak, bu sitede [İstatistikler ve nedensel çıkarım?] (Http://stats.stackexchange.com/q/ dahil) "nedensellik" için arama yaparak bulunan bazı konuları da okumalısınız. 2245).
@whuber: (+1) bu soru math.SE'den kaynaklandı ve OP'yi bağladığınız aynı soruya işaret ettim. Bence bu oradaki sorunun silinmesine ve buraya taşınmasına neden oldu.
Altı yanıtlar:
#1
+12
Frank Harrell
2011-08-21 22:04:19 UTC
view on stackexchange narkive permalink

Mutlak yoktur. Farklı sorunların farklı zorlukları vardır. Birinin belirli bir $ R ^ 2 $ 'ı reddetmesini sağlayacak tek şey, önceden belirlenmiş veya gereğinden fazla düzeltilmiş bir model kullanarak aynı veri kümesinden çok daha büyük bir $ R ^ 2 $ elde eden başka bir yaklaşımdır.

#2
+9
rolando2
2011-08-21 23:02:31 UTC
view on stackexchange narkive permalink

Sonuç değişkeninizin öznel olması, onun oldukça kusurlu bir güvenilirlikle ölçülecek olduğunu gösterir. Güvenilirlik ne kadar düşükse, diğer değişkenlerle daha fazla azalmış korelasyon olma eğiliminde olacaktır, bu nedenle kişinin standartlarını düşürmesi gerekir.

Size daha somut bir tepki vermeyi deneyeceğim. Sadece bildiğim küçük bir miktarı bildiğimden, .35'e yakın bir RSQ'nun bir eleştirmen veya başka bir okuyucu olarak beni çok ilgilendireceğini ve bu modelin açıklayıcı gücünden oldukça etkileneceğini tahmin ediyorum; 20'ye yakın olması beni biraz ilgilendirir; ve 0,10'a yakın olanı, kullanışlı ve yararsız bir model belirtme arasındaki sınırda görünebilir.

yani ... yaklaşık 0,38 olan r ^ 2 değerim iyi olurdu, o zaman :) btw, elinizde böyle bir r ^ 2'nin yürüttüğüm türden bir çalışma için iyi olabileceğini belirten herhangi bir kağıt var mı ?? Sadece "resmi" bir şeye referans verebilirim
Bilmiyorum, ama @Frank Harrell'in önerdiği gibi, kimsenin "bu rsq yeterlidir" demesine çok fazla ihtiyaç veya kullanım yok. Normalde, katsayıları tahmin etmek, standart tahmin hatalarını belirtmek vb. Gibi böyle bir araştırmayla başarmak isteyen çok daha fazla şey vardır.
#3
+3
Dave Owen
2011-08-22 21:00:03 UTC
view on stackexchange narkive permalink

Bağımlı değişkeninizin bir tür farklı Likert tarzı puan olduğunu varsayıyorum. Öyleyse, R-karenin aşırı uçlara yakın olmadığından emin olur ve regresyon katsayılarınıza daha fazla dikkat ederdim.

Bu arada, ne tür bir regresyon modeli kullandınız? Sıradan en küçük kareler, nihai sonuçları sunmak için hoş karşılanmayabilir, ancak bir ilişkinin iyi bir ilk göstergesi olabilir. Son bir makale için sıralı bir probit veya logit kullanacağım. Bağımlı değişkene dayattığınız dağılım hakkında çok net olmak istersiniz - örneğin, en küçük kareler kullanmak, gerçekte insanlar öznel puanlar verirken oldukça tutarsızken, ölçekteki sayıların eşit uzaklıkta olduğunu varsayar.

Sadece açıklığa kavuşturmak için: OLS'yi kesikli, sıralı bir bağımlı değişken için kullanmam. Diğer birçok uygulamada sorun yok.
Sitemize hoş geldiniz Dave! Düşüncelerinizi değerlendirdiğiniz için teşekkürler.
#4
+2
Sympa
2011-08-21 22:47:33 UTC
view on stackexchange narkive permalink

Sizin gibi sosyolojide 0,05 R Karesinin kabul edilebilir olduğunu sık sık duymuştum. Bazen bunun gerçekten doğru olup olmadığını merak ediyorum veya sosyolojideki eksik bilimsel titizliği yansıtıyor mu (en azından bu ölçüye dayanarak). 0,05'lik bir R Karesi verildiğinde, 0.22'lik mutlak bir R seviyesine karşılık gelir ve bu size bir şeyler söylüyor gibi görünür.

Ancak, kendimi bu kadar alçak R Meydanı'nda rahat ettirmeden önce birkaç şey yapardım. Modelinizi farklı veri kümeleri kullanarak çalıştırın. Verilerinizdeki veri noktalarını kullanın ve modelinizin bağımlı değişkeni ne kadar iyi tahmin ettiğini görün. Başka bir deyişle, model sonuçlarınız farklı veri kümeleri ile çoğaltılabilir mi? Modeliniz öngörücü mü? Bu, modelinizin, rastgele bir R Kare eşiğinin size söyleyebileceğinden çok daha fazla yararlı olacak minimum yönsel sağlamlığa sahip olup olmadığını tanımlayacaktır.

0,05'lik bir R Karesi ile ilgili model sonuçlarının bunalmış olduğunu sezerim. Modelin Standart Hatası ile. Ve yukarıda kullanılan basit yöntemler bu fenomeni belgelemenize yardımcı olabilir.

Bazen katsayının genel etkisini anlamaktan daha az önemlidir. Bu, bunun gibi modeller için çok doğrudur.
Bunun bilimsel titizlikle değil, görevin zorluğuyla ilgisi olduğunu düşünüyorum. Birinin kaç gün yaşaması gerektiğini tahmin ediyorsanız, $ R ^ 2 $ oldukça düşük olacaktır (şükürler olsun).
+1 @Frank, ancak $ R ^ 2 $ 'ın basit ölüm tarihleri ​​tahminleri için oldukça yüksek olacağını (aktüeryal tablolara göre), * yaşı kontrol etmediğiniz sürece * çok yüksek olacağını söyleyemem! Bu, $ R ^ 2 $ 'ın neden bir modelin kalite veya "kabul edilebilirliğinin" neredeyse yararsız bir ölçüsü olduğunu güzel bir şekilde gösterir.
Bireylerin sonuçlarını tahmin etmekle kıyaslandığında kolay olan grup tahminlerini düşünüyorsunuz.
#5
+1
user34889
2013-11-16 19:34:27 UTC
view on stackexchange narkive permalink

RQS'nin önemi konusunda çok fazla kafa karışıklığı var gibi görünüyor. RSQ, geçerli bir modele sahip olduğunuzu ima etmez, bunun yerine bazı "uyum iyiliği" olduğunu ima eder.

Kısa bir genel bakış için bloguma bakın.

http: / /www.excel-with-data.co.uk/blog-1

Blog gönderinizin OPs sorusuyla ilgili ana noktalarını özetlemeniz, kendi kendine yeten bir yanıt vermenizi sağlar. Ayrıca, RQS ve RSQ ile aynı şeyi mi kastediyorsunuz ve kısaltmalar tam olarak ne anlama geliyor?
#6
-1
Jordache
2012-08-14 02:05:02 UTC
view on stackexchange narkive permalink

Kategorik yanıt değişkeninin analizi için kesinlikle Çoklu doğrusal regresyon kullanamazsınız. Bu durumda, lojistik modeli bir logit veya probit bağlantısı ile kullanmayı tercih etmelisiniz (ayrıca cevabın sıralı mı yoksa nominal mi olduğu da önemlidir). Yine de bu gerçekten geç bir cevap olabilir.

Evet, örneğin 1 veya 0'ı alan herhangi 2 durumlu kategorik değişken için doğrusal olasılık modelini yapabilirsiniz.
Veya bazı doğrusallık varsayımlarına sahip sıralı kategorik değişkenler için
Bu, http://stats.stackexchange.com/questions/29469/ols-vs-logistic-regression-for-exploratory-analysis-with-a-binary-outcome ile ilgilidir. Çoğu zaman "kesinlikle yapamazsın" ifadesi ile karşılanabilir "belki bunu yapamayabilirim ve sizin için önemli olan tüm varsayımları tatmin edebilirim; ama bunu yapabilir ve benim için değerli bir şey öğrenebilirim."


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...