Soru:
Hangi dağılım "5 rakamlı özet" istatistiklerine çok yakın (veya tam olarak) uyabilir?
Seth
2012-06-17 02:55:02 UTC
view on stackexchange narkive permalink

Bilim adamlarının 5 numaralı özet istatistikler hakkında tahminler girmesine olanak tanıyan bir web aracı (= "Buraya stackoverflow.com'dan gelen cahil bir istatistikim" ) programlıyorum. bir değişken. Giriş, bir kutu grafiğinin UI metaforu kullanılarak yapılır.

Bilim adamlarının girdilerini PDF / CDF olarak görselleştirmelerine izin vermek istiyorum, ancak temel bir dağıtım seçmem gerekiyor.

  • ~ 1'inci, 25'inci sırayı sabitleyen 5 numaralı özete iyi bir şekilde uyarken "olabildiğince normal" bir dağıtım arıyorum. 50., 75. ve ~ 99. yüzdelik dilimler.
  • 3-param skew-normal ile başladım, ancak 5-girişli parametrelere tam olarak (veya hatta yakından) uyması için yeterli DOF'ye sahip olmadığı açıktır
  • "Min" ve "max" ı 1. ve 99. yüzdelik dilimler olarak yorumluyorum. Bunun kabataslak olduğunu biliyorum, ancak girilen sayılar spekülatif tahminler (= "Merak etmeyin, ölçülen verilerin yorumunu mahvetmiyorum" )
  • Basitlik bir erdem. İdeal olarak, dağıtımın sayısal parametre tahmini ile yapılması kolay ve kolay olacaktır (kapalı form en güzel, ala http://www.johndcook.com/blog/2010/01/31/parameters-from -yüzdelikler /, ancak bu hemen hemen ay için çekim yapmak, doğrusal olmayan optimizasyon yapmak veya bir şey sorun değil)
  • GSN / CSN gibi dağıtımlara bakmaya başladım. http://www2.warwick.ac.uk/fac/sci/statistics/crism/research/2012/paper12-08/12-08w.pdf, ancak ben gerçekten emin değilim ' Doğru aileye bakıyorum. Belki de çarpık normal başlamak için en iyi yer değildir? Ayrıca Johnson dağıtımı gibi şeyleri de düşündüm ve bulabildiğim kadarıyla neredeyse "uyacak şekilde tasarlanmış" görünüyor.

Hangi dağıtımlara bakmalıyım? ?

Aracın ekran görüntüsü: ortanca değeri çarpık normal dağılıma sığdırmamak

Burada olası bir yanlış yorumlama olduğuna inanıyorum. 5 numaralı özetteki (dağılımın parametrelerinin fonksiyonları olan) niceliklere veri olmadan bir dağılım atamak istiyorsanız, o zaman parametreler için önceden dağılımlar vermelisiniz. Ek olarak, GSN hakkında işaret ettiğiniz makale, bunun daha kullanışlı olan kapalı-eğri-normalin özel bir durumu olduğunu söylüyor (bu nedenle bu model iyi bir seçim olmayabilir).
@Procrastinator Bir bilim adamının gen hakkındaki inançlarını bana iletmesine yardımcı olmaya çalışıyorum. bir dağılım şekli. Birçok alan uzmanı, yüzdelik dilimlere göre kendi inançlarını incelemeyi daha kolay buluyor. Bununla birlikte, diğer taraftan, birçok alan uzmanı PDF'leri okumakta oldukça rahattır. Yapmaya çalıştığım şey, uzmanların dağıtımın genel şekli hakkındaki spekülasyonlarını, iç gözlem yapmayı kolay buldukları bir biçimde girmelerine izin vermek, ancak okumayı bildikleri bir forma göre kontrol etmelerine izin vermek: bu durumda, bir PDF. Bir tür yazma / okuma geri bildirim döngüsü.
Temel olarak, başka hiçbir bilgi içermeyen 5 numaralı bir özet verildiğinde, mümkün olduğu kadar olası ve normal görünen sürekli yoğunluk işlevinin güzel bir resmini çizen bir yöntem arıyorum. Sadece güzel bir resim, bir insan geribildirim döngüsü, analitik bir diyagram değil.
üç yanıtlar:
Cyan
2012-06-18 09:42:27 UTC
view on stackexchange narkive permalink

user1448319'un cevabı beynimde şu düşünceyi tetikledi. Formun noktalar kümesi üzerinde doğal bir kübik spline yapın

$ (x_p, \ Phi ^ {- 1} (p)) $

$ x_p $, $ 100p $ yüzdelik dilimdir ve $ \ Phi ^ {- 1} (\ cdot) $, normal dağılımın nicelik fonksiyonudur. Ortaya çıkan enterpolasyonlu spline işlevini normal CDF aracılığıyla çalıştırın ve PDF'yi elde etmek için türevi alın. Bu prosedür aşağıdaki özelliklere sahiptir:

  • Ortaya çıkan dağılım verilen yüzdeliklerle tam olarak eşleşir;
  • kuyruklar normaldir;
  • Verilen yüzdelikler gerçekten bazı normal dağıtımlarınkilerle eşleşirse, çıktı bu normal dağılımdır;
  • sayısal hesaplamalar son derece kolaydır ve PDF için analitik ifadeler verir;
  • diğer hedef dağıtımlara genelleme açıktır .

Ama kanıtı pudingde. Biraz R kodu kırayım ...

  elicit_distribution <- function (x, p, qfun = qnorm, pfun = pnorm, dfun = dnorm, range_factor = 1, length.out = 1000 , ...) {fun <- splinefun (x, qfun (p), method = "natural", ...) cdfun <- function (x) pfun (fun (x, deriv = 0)) from <- min (x) - aralık_faktörü * fark (aralık (x)) ila <- maks (x) + aralık_faktörü * fark (aralık (x)) xval <- sıra (başlangıç, bitiş, uzunluk.out = uzunluk.çıkışı) listesi (cdfun = cdfun, pdfun = function (x) fun (x, deriv = 1) * dfun (fun (x, deriv = 0)), quantfun = yaklaşıkfun (cdfun (xval), xval))} plot_elicited_distribution <- fonksiyonu (x, p, qfun = qnorm, pfun = pnorm, dfun = dnorm, range_factor = 0.1, lwd = 2, ylab = "PDF", ...) {dist <- elicit_distribution (x, p, qfun, pfun, dfun) <'ten - min (x) - aralık_faktörü * fark (aralık (x)) ila <- max (x) + aralık_faktörü * fark (aralık (x)) eğrisi (dist $ pdfun (x), from = from, to = to, lwd = lwd, ylab = ylab,. ..) lineseg <- function (x, y, ...) points (c (x, x), c (0, y), type = "l", lwd = lwd, ...)
col <- function (i) c ("kırmızı", "yeşil") [1 + ((i-1) %% 2)] xval <- dist $ quantfun (p) for (i in 1: length (xval) ) {puan (x [i], dist $ pdfun (x [i]), col = col (i), pch = 16) lineseg (xval [i], dist $ pdfun (xval [i]), sütun = sütun (i))}} x <- c (5, 15, 17, 25, 46) p <- c (0.01, 0.25, 0.5, 0.75, 0.99) plot_elicited_distribution (x, p)  

oh crap

(PDF eğrisi üzerinde çizilen düz noktalar, verilen değerleri gösterir. Çizgiler, oluşturulan dağılımın yüzdeliklerini gösterir.)

Aw, bok. Listeye bir özellik daha ekleyin:

  • Tek modlu olma garantisi yok

Bunun yerine yumuşatma eğrisini deneyelim. "Elicit_distribution" hariç olmak üzere, daha önce olduğu gibi kod,

  fun <- splinefun (x, qfun (p), method = "natural")  

yerine

  splineobj <- smooth.spline (x, qfun (p)) fun <- function (x, deriv) tahmin (splineobj, x, deriv) $ y  

a bit better

Bu biraz daha iyi. Yayınladığınız çarpık normal grafiğe oldukça benzer, ancak garip yüzdelikler için farklı bir değiş tokuşa sahip gibi görünüyor, bu da medyanda biraz daha iyi bir uyum ve% 25 noktasında biraz daha kötü bir uyum ile sonuçlanıyor.

user1448319
2012-06-18 03:50:24 UTC
view on stackexchange narkive permalink

Neden parçalı doğrusal dağılım gibi bir şey kullanmıyorsunuz?

Bir bilim insanının size $ x_ {01}, x_ {25}, x_ {50}, x_ {75} değerlerini verdiğini varsayalım. x_ {99} $, bilinmeyen temel dağılımın% 1, ...,% 99'una karşılık gelir. $ Y_ {01} $, ... 'ın solundaki kütlenin% 1'i ve $ y_ {99} $' ın solundaki kütlenin% 99'unun olduğu bir dağıtım yapmak istiyoruz.

Bu dağıtım fonksiyonuna $ f $ diyelim, yani $ f (x_t) = y_t $.

Dağılımın sonlu bir $ x_ {00} $ ve $ x_ {100} olduğunu varsayalım. $. Ayrıca $ x_ {00} $ 'ın ne olduğunu bildiğimizi varsayalım. Şimdilik, $ x_ {00} = x_ {01} - | x_ {25} - x_ {01} | $ gibi bir şey seçelim (hata ayıklama yapmak için belirli bir değerimiz veya başka bir şey olsun diye). Buna daha sonra döneceğim.

$ y_ {00} = 0 $ olarak ayarlayın. $ Y_ {01} $, $ (x_ {00}, y_ {00}) $ ile $ (x_ {01}, y_ {01}) $ arasındaki çizgi segmentinin altındaki alan% 1'e eşit olacak şekilde ayarlayın (yani yani $ \ int_ {x_ {00}} ^ {x_ {01}} f (x) = 0.1 $). Bu size $ y_ {01} $ için bir değer verir. Şimdi $ y_ {25} $ değerini bulun, böylece çizgi segmentinin altındaki $ (x_ {01}, y_ {01}) $ ile $ (x_ {25}, y_ {25}) $ arasındaki alan eşit olsun % 25 -% 1 =% 24. $ Y_ {50} $, $ y_ {75} $ ve $ y_ {99} $ bulmak için bunu tekrar yapın. Oluşturduğunuz parçalı doğrusal fonksiyonun altında size% 100 toplam alan sağlayan $ x_ {100} $ 'ı seçmeyin. Artık, uzmanın size söylediği% 1 değerin tam olarak% 1'ini, uzmanın size söylediği% 25 değerinin% 25'inin solunda vb. Kütlenin tam olarak% 1'ini içeren bir dağılımınız var.

Şimdi , dağıtımınıza bakın. Mantıklı olan $ x_ {00} $ değerini seçin. Size otomatik olarak $ x_ {00} $ seçimi sağlamak için küçültmek istediğiniz bir ölçüyü seçmek akıllıca olabilir. Örneğin, dağıtımınızın toplam açısını en aza indirebilirsiniz (örneğin, dağıtımınız $ f $ ise, $ \ int _ {- \ infty} ^ \ infty {d ^ 2 \ over dx ^ 2} f (x ) dx $, $ x_ {00}, ..., x_ {100} $) değerlerinin her birinde $ f $ açılarının toplamıdır.

Bu bana en saf yaklaşım gibi görünüyor, çok esnek ve parametrik olmama gibi ek bir yararı var, bu yüzden hiçbir şey tahmin etmenize gerek yok. Umarım iyi bir başlangıç ​​noktasıdır.

Fred
2012-06-17 10:00:40 UTC
view on stackexchange narkive permalink

Bunu Box-Cox dönüşümü veya diğer güç dönüşüm ailesine dayalı olarak elde edebilirsiniz (rastgele değişkeninizin kesinlikle pozitif olup olmadığına bağlı olarak). İlk olarak, orijinal bilinmeyen dağıtımın iyi davrandığını varsayabilirsiniz (karışık bir dağıtımdan değil). Daha sonra Box-Cox dönüşümüne bağlı olarak, dönüştürülmüş dağıtım yaklaşık olarak normal olarak dağıtılacaktır.

(1) Normal olarak dağıtılan bir rastgele değişken için özet istatistiklerin başlangıç ​​değerini ayarlayın. İlk değerler, $ X $ bilinmeyen dağılımın rapor edilen özet istatistiklerine Box-Cox dönüşümü uygulayarak hesaplanabilir. Bu size $ y_q $ 'ın başlangıç ​​değerlerini ve ilk dönüşüm parametresi $ \ lambda $' ı verecektir.

(2). Çalışmanın örneklem boyutu için normal bir rastgele değişkeni (1) 'den başlangıç ​​değerleri ile simüle edin, bu nedenle $ y \ sim Normal (\ mu, \ sigma ^ 2) $. (1) 'de kuantilleri kullanıyorsanız, $ \ mu $ ve $ \ sigma ^ 2 $, $ \ mu \ pm v_q \ sigma = y_q $ formülü kullanılarak türetilebilir; burada $ v_q $ teorik kuantil değerlerdir normal dağılım için.

(3). Box-Cox dönüşümünü ters çevirin $ x = (y \ lambda + 1) ^ {1 / \ lambda} $ ve örnek ortalamanın, örnek standart sapmanın veya $ x $ 'ın ters dağılımından örnek yüzdelik aralıklarının özet istatistiklerini hesaplayın.

(4). $ Y $ normal rastgele değişkeninin optimal tahminlerini elde etmek için en küçük kareler $ \ sum {\ frac {\ theta_i-O_i} {O_i}} $ toplamını en aza indirin; burada $ \ Theta $, ters dağılım ve $ O $ bilinmeyen dağıtımdan rapor edilen özet istatistiklerin vektörüdür.

(5). Bilinmeyenin simüle edilmiş dağılımını elde etmek için bu optimum tahminleri (2) ve (3) 'e koyun.

(6). (2) 'ye geri dönün ve yeni bir normal dağılımı simüle etmek için farklı rastgele tohumlar kullanın.

Umarım bu yardımcı olur.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...