Yalnızca özet verilerine sahip olduğum uyum çizgilerini elde etmek için ağırlıklı regresyon kullanma

Soru:

jebyrnes

2010-11-02 03:35:52 UTC

view on stackexchange narkive permalink

Sürekli tahmin edicinin farklı düzeyleri için yalnızca araçlara, standart sapmalara ve örnek boyutlarına sahip olduğum bir veri kümesiyle çalışıyorum.

 YX SD_Y N_Y5 1 3 410 2 6 215 3 2 8

Bu verilere uyan regresyon doğrusunu belirlemek istiyorum. Veri noktalarının doğrusal bir regresyonda nasıl ağırlıklandırılması gerektiğini hatırlamak için beynimi zorluyorum (aynı zamanda genelleştirilmiş bir doğrusal model kullanmakla da ilgileniyorum) - örnek boyutu, varyans, SD?

Herhangi bir işaret var mı?

Y sütunu araçları veriyor mu?

Evet. Araçları veriyor.

Dört yanıtlar:

whuber

2010-11-02 22:15:39 UTC

view on stackexchange narkive permalink

Bu, Varyans Analizidir.

Sonuçta, $ y $ 'lardan birini, standart sapma $ s $ ile düşünün ve tahmin edilen değerine (karşılık gelen $ x $ ) $ f $ olacaktır. Asıl amaç, karesel artıkların toplamını en aza indirmek için $ f $ 'ı değiştirmektir (modele bağlı olarak kısıtlamalar dahilinde; genellikle $ f $, $ x $' lık doğrusal bir fonksiyon olmak için gereklidir). Orijinal veri kümesine sahip olduğumuzu varsayalım . Belirli bir $ y $ ile özetlenen değerler $ y_1, y_2, \ ldots, y_k $ olsun, böylece $ y $ ortalamaları ve $ s $ standart sapmaları olsun. Artıkların karelerinin toplamına katkıları eşittir

$$ \ sum_ {i = 1} ^ k {\ left (y_i - f \ right) ^ 2} = k \ left (y - f \ sağ) ^ 2 + k 's ^ 2 \ text {.} $$

($ k' $ yazdım çünkü değeri standart sapmalarınızı nasıl hesapladığınıza bağlı: $ k $ için bir kural ve diğeri için $ k-1 $.) Son terim $ f $ 'a bağlı olmadığından, küçültmeyi etkilemez : onu ihmal edebiliriz.

Sağ taraftaki diğer terim, $ k $ sayılarına (verilerin "N_Y" sütunu) eşit ağırlıklarla ağırlıklı en küçük kareler hesaplaması yapmak istediğinizi gösterir. Benzer şekilde, her bir verinin $ (X, Y) $ $ N_Y $ kopyasını oluşturarak ve normal en küçük kareler regresyonu gerçekleştirerek sentetik bir veri kümesi oluşturabilirsiniz.

Bu analizin tahmin işlevinin biçimi hakkında hiçbir şey varsaymadığını unutmayın: sevdiğiniz herhangi bir açıklayıcı değişkeni içerebilir ve doğrusal olmayanlar dahil herhangi bir biçime sahip olabilir.

Ayrıca ağırlıklandırmanın standart sapmalara bağlıdır. Bunun nedeni, dolaylı olarak y'lerin varyansının sabit olduğunu varsaymış olmamızdır, böylece gözlemlenen standart sapmalar arasındaki tüm farklar rastgele dalgalanmalara atfedilir. Bu hipotez, olağan yollarla ( örneğin , F testleriyle) test edilebilir. Elde ettiği örnek veriler için: bu standart sapmalar önemli ölçüde değişiklik göstermez.

Düzenleme Geriye dönüp baktığımda, bu yanıtın yalnızca @ onestop'un özlü yanıtını yinelediğini görüyorum. Bunu bırakıyorum çünkü @onestop'un neden doğru olduğunu gösteriyor.

Bu sabah kısa bir cevaptan fazlasını yapacak vaktim olmadı. Bu akşam konuyu genişletmeyi planlıyordum ama işi çok güzel yaptın, yumru

Varyanslar önemli ölçüde değiştiyse, varyanslara ters ağırlık vermeniz gerektiğini düşünürken haklı mıyım? Eşit varyans olması durumunda, bu, n IID gözlemlerinin varyansı (bir gözlemin varyansı / n) olduğundan, gözlem sayısı ile ağırlıklandırmaya indirgenir.

@Chris (Bu, yanlışlıkla farklı bir soruya atıfta bulunan daha önceki bir yanıtın yerine geçer.) Evet, bu doğru. Bununla birlikte, her zaman gözlem sayısıyla doğru orantılı olarak ağırlık verilmelidir (her gruptaki gözlemsel hataların bağımsız olduğunu varsayarsak). Varyanslar çok farklılık göstermediğinde, varyans ağırlıklı regresyon kullanılıp kullanılmayacağına ilişkin kolay veya genel bir kural olduğunu sanmıyorum. (Bu durumda, yalnızca 2-8 serbestlik derecesine sahip 6: 2 SD aralığı, farklı varyansın ikna edici kanıtlarını sağlayacak kadar geniş değildir.)

@whuber Sevgili Whuber, bu [soru] konusunda bana yardımcı olabileceğinizi umuyordum (http://stats.stackexchange.com/questions/207136/methods-to-compare-decay-rates), her zaman çok güzel cevaplar veriyorsunuzmetodoloji türü sorulara.Senden duymayı umuyorum

onestop

2010-11-02 11:01:23 UTC

view on stackexchange narkive permalink

Her birinin ağırlığı, hesaplanırken kullanılan puan sayısıyla ifade edilir. Daha sonra bu yaklaşımın varsaydığı homoskedastisite hipotezini test etmek için tahmini standart sapmaları kullanabilirsiniz. N'ler örneğinizdeki kadar küçükse, SD'ler büyük ölçüde değişmedikçe bu test muhtemelen fazla güce sahip olmayacaktır.

Kısa ve tatlı olduğu için bunu doğru olarak işaretliyorum. Bununla birlikte, Whuber'ın NEDEN doğru olduğu konusunda daha uzun süren güzel açıklamasına bakın. Ve aslında, problemle dalga geçerken, n ile ağırlıklandırmak, doğru parametre tahminlerini ve simüle edilmiş verilerle çalışmaya nispeten benzer SE ve p değerlerini üretir.

user28

2010-11-02 05:50:27 UTC

view on stackexchange narkive permalink

Ayrıştırılmış model şöyle olsun:

$ Y_ {ia} = X_a \ beta + \ epsilon_i $

burada

$ \ epsilon_i \ sim N (0, \ sigma ^ 2) $

Toplu modeliniz şu şekilde verilir:

$ Y_a = \ frac {\ sum_i (Y_ {ia})} {n_a} $

burada,

$ n_a $, $ a $ endeksine karşılık gelen gözlemlerin sayısıdır.

Bu nedenle, şu sonucu verir:

$ Y_a = X_a \ beta + \ epsilon_a $

burada

$ \ epsilon_a \ sim N (0, \ frac {\ sigma ^ 2} {n_a}) $ ve

$ a = 1, 2, ... A $

Bu nedenle, OLS tahmini aşağıdakiler en aza indirilerek verilecektir:

$ \ sum_a (Y_a - X_a \ beta) ^ 2 $

Bu, olağan çözümü verir. Dolayısıyla, eğim parametreleri için tahmin söz konusu olduğunda herhangi bir fark olduğunu sanmıyorum.

Düzenleme 1

İşte küçük bir simülasyon Yukarıdaki fikri açıklayan R'de (R'yi öğrenmek için yukarıdaki gibi soruları kullandığım için belirsiz kod için özür dilerim).

  set.seed (1); n <- c (4 , 2,8); x <- c (1,2,3); veri <- matrix (0,14,2) mean_data <- matrix (0,3,2) indeksi <- 1; for (i in 1 : 3) {için (1: n [i] 'de gözlemleyin) {veri [dizin, 1] <- x [i]; veri [dizin, 2] <- x [i] * 8 + 1.5 * rnorm (1); ortalama_veriler [i, 1] = x [i]; ortalama_veriler [i, 2] = ortalama_veriler [i, 2] + veri [dizin, 2]; dizin = dizin + 1; } ortalama_veriler [i, 2] = ortalama_veriler [i, 2] / n [i];} beta <-lm (ortalama_veriler [, 2] ~ ortalama_veriler [, 1]);

Yukarıdaki kod beta yazdığınızda çıktıyı verir:

  Çağrı: lm (formül = ortalama_veriler [, 2] ~ ortalama_veriler [, 1]) Katsayılar: (Kesme ) ortalama_veriler [, 1] -0.03455 7.99326

Düzenleme 2

Ancak, hata varyansları eşit olmadığı için OLS verimli değildir. Bu nedenle, MLE fikirlerini kullanarak aşağıdakileri en aza indirmemiz gerekir:

$ \ sum_a {n_a (Y_a - X_a \ beta) ^ 2} $

Başka bir deyişle, aşağıdakileri en aza indirmek istiyoruz:

$ \ sum_a {(\ sqrt {n_a} Y_a - \ sqrt {n_a} X_a \ beta) ^ 2} $

Böylece, MLE şu şekilde yazılabilir:

$ W $ diyagonal boyunca $ \ sqrt {n_a} $ olan bir köşegen matris olsun. Böylece, MLE tahmini şu şekilde yazılabilir:

$ (X 'X) ^ {- 1} X' Y $

burada,

$ Y = W [Y_1, Y_2, ... Y_A] '$ ve

$ X = W [X_1, X_2, ... X_A]' $

Düşünmenin başka bir yolu bu:

$ Y $ 'ın farkını düşünün. Yukarıda Y $ için verilen dönüşüm, Y $ 'ın bireysel değerlerinin varyansının aynı olmasını ve böylece OLS'nin MAVİ olduğu Gauss-Markov teoreminin koşullarını karşılamasını sağlar.

Owe Jessen

2010-11-02 05:42:39 UTC

view on stackexchange narkive permalink

Normalleştirilmiş değişkenleri (z = (x-ortalama (x)) / (sd (x)) hesaplayacağımı ve regresyonu çalıştıracağımı düşünüyorum. Veya bir önyüklemede örnekler oluşturmanın bir yolunu bulabilirsin. I ' Bunun ders kitabı çözümü olup olmayacağından emin değilim, ancak sezgisel olarak işe yaraması gerekiyor.

ⓘ

Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 2.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.

about - legalese