İki değişkenin kovaryansı -150 olarak hesaplandı.İstatistikler iki değişken arasındaki ilişki hakkında ne anlatıyor?
İki değişkenin kovaryansı -150 olarak hesaplandı.İstatistikler iki değişken arasındaki ilişki hakkında ne anlatıyor?
Łukasz Deryło'nun cevabına eklemek için: yazarken, -150'lik bir kovaryans negatif bir ilişkiye işaret ediyor. Bunun güçlü bir ilişki mi yoksa zayıf bir ilişki mi olduğu değişkenlerin varyanslarına bağlıdır. Aşağıda, güçlü bir ilişki için örnekler çiziyorum (her ayrı değişkenin varyansı 200'dür, dolayısıyla kovaryans, varyansa kıyasla mutlak terimlerle büyüktür) ve zayıf bir ilişki için (her varyans 2000'dir, dolayısıyla kovaryans küçüktür) , mutlak terimlerle, varyansa kıyasla).
varyans <- 200
: varyans <- 2000
: kitaplığı (MASS)
nn <- 100
epsilon <- 0.1
varyans <- 2000 # zayıf ilişki
opar <- par (mfrow = c (2,2))
için (1: 4'te ii) {
while (TRUE) {
veri kümesi <- mvrnorm (n = 100, mu = c (0,0), Sigma = rbind (c (2000, -150), c (-150,2000)))
eğer (abs (cov (veri kümesi) [1,2] - (- 150)) < epsilon) kırılır
}
plot (veri kümesi, pch = 19, xlab = "", ylab = "", ana = yapıştır ("Kovaryans:", cov (veri kümesi) [1,2]))
}
par (opar)
Whuber'ın belirttiği gibi, kovaryansın kendisi bize bir veri kümesi hakkında pek bir şey söylemiyor. Örnek olarak, Anscombe'un dörtlüsünü alıp biraz değiştireceğim. Çok farklı dağılım grafiklerinin hepsinin -150'lik aynı (yuvarlanmış) kovaryansa sahip olabileceğine dikkat edin:
anscombe.mod <- anscombe
anscombe.mod [, c ("x1", "x2", "x3", "x4")] <- sqrt (150 / 5.5) * anscombe [, c ("x1", "x2", "x3", "x4")]
anscombe.mod [, c ("y1", "y2", "y3", "y4")] <- -sqrt (150 / 5.5) * anscombe [, c ("y1", "y2", "y3" , "y4")]
opar <- par (mfrow = c (2,2))
ile (anscombe.mod, plot (x1, y1, pch = 19, ana = yapıştır ("Kovaryans:", yuvarlak (cov (x1, y1), 0))))
ile (anscombe.mod, plot (x2, y2, pch = 19, ana = yapıştır ("Kovaryans:", yuvarlak (cov (x2, y2), 0))))
ile (anscombe.mod, plot (x3, y3, pch = 19, ana = yapıştır ("Kovaryans:", yuvarlak (cov (x3, y3), 0))))
ile (anscombe.mod, plot (x4, y4, pch = 19, ana = yapıştır ("Kovaryans:", yuvarlak (cov (x4, y4), 0))))
par (opar)
Son olarak, düşünülebilecek x $ ve y $ arasında belki de en zayıf "negatif ilişkiye" sahip -150'lik bir kovaryans:
xx <- yy <- seq (0,100, by = 10)
yy [9] <- -336,7
plot (xx, yy, pch = 19, ana = yapıştır ("Kovaryans:", cov (xx, yy)))
Size yalnızca bu ilişkinin olumsuz olduğunu söyler.Bu, bir değişkenin düşük değerlerinin diğerinin yüksek değerleriyle birlikte oluşma eğiliminde olduğu anlamına gelir.
Bu kovaryansın büyük mü yoksa küçük mü olduğunu söylemek zor (ilişkiniz güçlü mü zayıfsa) çünkü $ cov (X, Y) $ $ -sd (X) \ cdot sd (Y) $ ile $ arasında değişiyorsd (X) \ cdot sd (Y) $.Dolayısıyla, değişkenlerinizin ölçeğine bağlıdır.
Bu ilişkinin güçlü olup olmadığına karar vermek için kovaryansı korelasyona dönüştürmeniz gerekir (bunu $ sd (X) \ cdot sd (Y) $ ile bölün).Bu, -1 $ ile 1 $ arasında değişir ve Web'de ve ders kitaplarında yorumlamaya yönelik birçok farklı kılavuz bulunabilir.
Korelasyonun önemi için test de çalıştırabilirsiniz.