Çoklu bağlantı ve tahmin performansı

Soru:

cs0815

2018-08-08 13:42:25 UTC

view on stackexchange narkive permalink

Bu ifadeye bakmak:

"Çoklu bağlantı doğrusu, tahmin gücünü değil, bireysel tahmin değişkeninin yanıt değişkeni üzerindeki etkisi yanlış hesaplanmış. "

Bu çelişkili mi?Bağımsız değişkenlerin parametreleri yanlış tahmin edildiğinden, bu tahmin performansını etkilemez mi?

Tahmine dayalı performansı önemsiyorsam ve modelin çıkarımsal doğasını umursamıyorsam, çoklu bağlantı ile ilgilenmem gerekir mi?Sanırım 'kara kutuyu' kabul eder etmez, daha güçlü 'parametrik olmayan' modelleri yine de varsayımlarım olmadan kullanmalıyım ...?

Aşağıdaki cevabımla alakasız ama son noktanızla ilgili: parametrik olmayan yöntemlerin varsayımlarının olmadığı doğru değil.

Bir cevap:

mkt - Reinstate Monica

2018-08-10 14:11:22 UTC

view on stackexchange narkive permalink

Bir eğitim veri kümesinde bir model eğittiğinizi ve bir test / uzatma veri kümesindeki bazı değerleri tahmin etmek istediğinizi varsayalım. Eğitim veri kümenizdeki çoklu bağlantı, yalnızca eğitiminizdeki ve test veri kümelerinizdeki değişkenler arasındaki kovaryans farklıysa test veri kümesindeki tahmini performansı düşürmelidir. Kovaryans yapısı (ve dolayısıyla multicollinearite) hem eğitim hem de test veri setlerinde benzer ise, o zaman tahmin için bir problem oluşturmaz. Bir test veri kümesi tipik olarak tam veri kümesinin rastgele bir alt kümesi olduğundan, kovaryans yapısının aynı olduğunu varsaymak genellikle mantıklıdır. Bu nedenle, çoklu bağlantı, genellikle bu amaç için bir sorun değildir.

Basit bir örnek verelim. Diğer bazı değişkenlere göre bir grup insanın boylarını tahmin etmek istediğinizi varsayalım: ağırlık, kol uzunluğu, bacak uzunluğu vb. Şaşırtıcı olmayan bir şekilde, bu değişkenlerin hepsinin eğitim veri kümenizde güçlü bir şekilde ilişkili olduğunu görüyorsunuz. Ancak hem eğitim hem de test veri kümelerinde kol uzunluklarının, bacak uzunluklarının, ağırlığın vb. Benzer şekilde ilişkili olduğunu varsayabilirseniz, devam edip bunları test veri kümenizdeki insanların boylarını başarıyla tahmin etmek için kullanabilirsiniz. Herhangi bir nedenle test veri kümeniz farklı bir kovaryans yapısına sahipse (uzun kollu bir grup basketbol oyuncusu içerdiğini varsayalım), o zaman tahminleriniz iyi olmayacaktır.

Birden çok doğrusallığın neden tahmin için bir sorun değil de çıkarım için bir sorun olduğuna gelince: Mükemmel şekilde ilişkilendirilmiş 2 değişken x1 ve x2 'nin uç durumunu ele alalım ( yani r = 1). Bir değişkeni y tahmin etmek için 2 regresyonda ayrı ayrı kullanıldığında, her ikisi de aynı katsayı değerlerini döndürür - diyelim ki katsayı değeri her iki durumda da 3'tür.

Hem x1 hem de x2 , y tahmininde bulunmak için çoklu regresyonda birlikte kullanıldığında, artık sonsuz sayıda olası katsayı kombinasyonu vardıreşit derecede geçerlidir.Örneğin, x1 katsayısı 3 olabilir ve x2 katsayısı 0 olabilir. Tersi eşit derecede geçerlidir: x1 katsayısı0 olabilir ve x2 katsayısı 3 olabilir.

Bu, çıkarım açısından muazzam bir belirsizliğe yol açar, çünkü her bir parametre yetersiz bir şekilde sınırlandırılmıştır.Ancak daha da önemlisi, bu varsayımsal model kümesindeki x1 ve x2 arasındaki büyük farklılığa rağmen, tüm modeller y için aynı tahminleri döndürür.Yani tahmin açısından bakıldığında tüm bu modeller eşdeğerdir.Tek yapmanız gereken bazı yeni değerleri tahmin etmekse, bu modellerden herhangi birini seçebilirsiniz - tabii ki x1 ve x2 'nin test veri kümenizde hala mükemmel şekilde ilişkilendirildiğini varsayarsak.

Tamam teşekkürler mantıklı.Bu arada harika bir örnek!

ⓘ

Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 4.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.

about - legalese