Tamam. Kanıtın tamamını buraya dahil etmek biraz uzun, bu yüzden sadece taslağını çizeceğim:
Başlangıçta rastgele nokta, $ x_0 $ etrafında birinci dereceden Taylor genişletmesi uygulayın
$$ y = m (x_0) + [x-x_0] '\ nabla m (x_0, \ theta) + R_1 + \ epsilon. $$
$ R_1 $ burada Taylor kalanıdır. Ayarlamak
$$ b_0 = m (x_0), \; b = \ nabla m (x_0, \ theta), \; \ beta = (b_o, b) '$$
$$ \ tilde x = x-x_0, \; u = R_1 + \ epsilon $$
ve matris gösterimine geri dönün
$$ \ mathbf y = \ tilde X \ beta + \ mathbf u. $$
Öyleyse OLS'nin tahmin etmeye çalışacağı şey, koşullu beklenti fonksiyonunun eğimidir, $ x_0 $ bir noktada değerlendirilir ve sabit terim tahmin etmeye çalışacaktır CEF bu noktada $ x_0 $ değerlendirildi.
OLS,
$$ \ hat \ beta = \ beta + (\ tilde X '\ tilde X) ^ {- 1} \ tilde X'u \, \ hat \ beta - \ anlamına gelir beta = (\ tilde X '\ tilde X) ^ {- 1} \ tilde X' (\ epsilon + R_1) $$
$ \ epsilon $ yapım gereği koşullu beklenti fonksiyonu hatası olduğundan, sınırda kalacağız
$$ \ text {plim} (\ hat \ beta - \ beta) = E (\ tilde x \ tilde x ') \ cdot E (\ tilde x \ cdot R_1 ) $$
Artık $ R_1 $ , $ x_0 $ seçimine bağlı olacaktır. $ R_1 $ doğrusal yaklaşımın yanlışlığını temsil ettiğinden, doğal bir düşünce "hangi genişleme merkezinin beklenen Taylor kalan kareyi en aza indirdiği $ E (R_1 ^ 2) $ ? " Öyleyse doğrusal yaklaşım, genel olarak sapmalarla ilgili olarak iyi bilinen ve yaygın olarak kullanılan bir optimallik kriteri olan "Ortalama hata karesini" taklit eden bir kriter altında "en iyi" olarak kabul edilir mi?
Bu yol izlenirse, $ x_0 = E (x) $ ayarının $ E ( R_1 ^ 2) $ eğer CEF gradyanı OLS tarafından tahmin ediliyorsa. Dahası, böyle bir durumda $ E (\ tilde x \ cdot R_1) = 0 $ olduğu bulunur. QED
Bunu pratikte uygulamak, bağımlı değişkeni merkezlenmemiş olarak bırakırken, regresörleri örnek ortalamalarına odaklamak anlamına gelir.