Hangi dağılım "5 rakamlı özet" istatistiklerine çok yakın (veya tam olarak) uyabilir?

Seth

2012-06-17 02:55:02 UTC

view on stackexchange narkive permalink

Bilim adamlarının 5 numaralı özet istatistikler hakkında tahminler girmesine olanak tanıyan bir web aracı (= "Buraya stackoverflow.com'dan gelen cahil bir istatistikim" ) programlıyorum. bir değişken. Giriş, bir kutu grafiğinin UI metaforu kullanılarak yapılır.

Bilim adamlarının girdilerini PDF / CDF olarak görselleştirmelerine izin vermek istiyorum, ancak temel bir dağıtım seçmem gerekiyor.

~ 1'inci, 25'inci sırayı sabitleyen 5 numaralı özete iyi bir şekilde uyarken "olabildiğince normal" bir dağıtım arıyorum. 50., 75. ve ~ 99. yüzdelik dilimler.
3-param skew-normal ile başladım, ancak 5-girişli parametrelere tam olarak (veya hatta yakından) uyması için yeterli DOF'ye sahip olmadığı açıktır
"Min" ve "max" ı 1. ve 99. yüzdelik dilimler olarak yorumluyorum. Bunun kabataslak olduğunu biliyorum, ancak girilen sayılar spekülatif tahminler (= "Merak etmeyin, ölçülen verilerin yorumunu mahvetmiyorum" )
Basitlik bir erdem. İdeal olarak, dağıtımın sayısal parametre tahmini ile yapılması kolay ve kolay olacaktır (kapalı form en güzel, ala http://www.johndcook.com/blog/2010/01/31/parameters-from -yüzdelikler /, ancak bu hemen hemen ay için çekim yapmak, doğrusal olmayan optimizasyon yapmak veya bir şey sorun değil)
GSN / CSN gibi dağıtımlara bakmaya başladım. http://www2.warwick.ac.uk/fac/sci/statistics/crism/research/2012/paper12-08/12-08w.pdf, ancak ben gerçekten emin değilim ' Doğru aileye bakıyorum. Belki de çarpık normal başlamak için en iyi yer değildir? Ayrıca Johnson dağıtımı gibi şeyleri de düşündüm ve bulabildiğim kadarıyla neredeyse "uyacak şekilde tasarlanmış" görünüyor.

Hangi dağıtımlara bakmalıyım? ?

Aracın ekran görüntüsü: ortanca değeri çarpık normal dağılıma sığdırmamak

Burada olası bir yanlış yorumlama olduğuna inanıyorum. 5 numaralı özetteki (dağılımın parametrelerinin fonksiyonları olan) niceliklere veri olmadan bir dağılım atamak istiyorsanız, o zaman parametreler için önceden dağılımlar vermelisiniz. Ek olarak, GSN hakkında işaret ettiğiniz makale, bunun daha kullanışlı olan kapalı-eğri-normalin özel bir durumu olduğunu söylüyor (bu nedenle bu model iyi bir seçim olmayabilir).

@Procrastinator Bir bilim adamının gen hakkındaki inançlarını bana iletmesine yardımcı olmaya çalışıyorum. bir dağılım şekli. Birçok alan uzmanı, yüzdelik dilimlere göre kendi inançlarını incelemeyi daha kolay buluyor. Bununla birlikte, diğer taraftan, birçok alan uzmanı PDF'leri okumakta oldukça rahattır. Yapmaya çalıştığım şey, uzmanların dağıtımın genel şekli hakkındaki spekülasyonlarını, iç gözlem yapmayı kolay buldukları bir biçimde girmelerine izin vermek, ancak okumayı bildikleri bir forma göre kontrol etmelerine izin vermek: bu durumda, bir PDF. Bir tür yazma / okuma geri bildirim döngüsü.

Temel olarak, başka hiçbir bilgi içermeyen 5 numaralı bir özet verildiğinde, mümkün olduğu kadar olası ve normal görünen sürekli yoğunluk işlevinin güzel bir resmini çizen bir yöntem arıyorum. Sadece güzel bir resim, bir insan geribildirim döngüsü, analitik bir diyagram değil.

elicit_distribution <- function (x, p, qfun = qnorm, pfun = pnorm, dfun = dnorm, range_factor = 1, length.out = 1000 , ...) {fun <- splinefun (x, qfun (p), method = "natural", ...) cdfun <- function (x) pfun (fun (x, deriv = 0)) from <- min (x) - aralık_faktörü * fark (aralık (x)) ila <- maks (x) + aralık_faktörü * fark (aralık (x)) xval <- sıra (başlangıç, bitiş, uzunluk.out = uzunluk.çıkışı) listesi (cdfun = cdfun, pdfun = function (x) fun (x, deriv = 1) * dfun (fun (x, deriv = 0)), quantfun = yaklaşıkfun (cdfun (xval), xval))} plot_elicited_distribution <- fonksiyonu (x, p, qfun = qnorm, pfun = pnorm, dfun = dnorm, range_factor = 0.1, lwd = 2, ylab = "PDF", ...) {dist <- elicit_distribution (x, p, qfun, pfun, dfun) <'ten - min (x) - aralık_faktörü * fark (aralık (x)) ila <- max (x) + aralık_faktörü * fark (aralık (x)) eğrisi (dist $ pdfun (x), from = from, to = to, lwd = lwd, ylab = ylab,. ..) lineseg <- function (x, y, ...) points (c (x, x), c (0, y), type = "l", lwd = lwd, ...) col <- function (i) c ("kırmızı", "yeşil") [1 + ((i-1) %% 2)] xval <- dist $ quantfun (p) for (i in 1: length (xval) ) {puan (x [i], dist $ pdfun (x [i]), col = col (i), pch = 16) lineseg (xval [i], dist $ pdfun (xval [i]), sütun = sütun (i))}} x <- c (5, 15, 17, 25, 46) p <- c (0.01, 0.25, 0.5, 0.75, 0.99) plot_elicited_distribution (x, p)