Soru:
Bu dağılımdan alınan örneklerden bir dağılım için CDF'yi tahmin etmenin doğru yolu nedir?
wnoise
2011-09-22 09:16:14 UTC
view on stackexchange narkive permalink

X (sürekli) dağıtımdan $ n $ örnek verildiğinde, yapılacak en açık şey onları sıralamak ve $ (x _ {(k)}, (k) alarak bunları $ [0,1] $ arasında eşit olarak dağıtmaktır. -1/2) / n) $ CDF'deki belirli noktaların tahminleri olarak ve gerektiğinde noktalar arasında bir tür enterpolasyon yapıyor.

Bu tahmini yapmanın "doğru" yolu bu mu? Tahmini puanlar için hata çubuklarını nasıl alırım? Simetrik olmaları gerekmiyor gibi görünüyor.

İlk düşüncem 'Bu sorunun bir cevabı olduğunu sanmıyorum' oldu. Cevaplardan birinde yazılana benzer. Düzgün bir eğri ile ilgili bir güven aralığı fikri ve ardından n arttıkça daralması harika bir fikir gibi görünüyor.
Cdf'nin kendisinin olağan tahmini [ampirik cdf] 'dir (http://en.wikipedia.org/wiki/Empirical_distribution_function).
Ben de bu konuyla ilgileniyorum.Ayrıca, Enrique Castillo'nun cdf'nin farklı parametrik olmayan tahminlerinin sunulduğu "Mühendislikte Aşırı Değer Teorisi", Academic Press (1988) kitabını öneriyorum.
Dört yanıtlar:
#1
+9
Jonathan Lisic
2011-09-22 10:33:17 UTC
view on stackexchange narkive permalink

İstatistiklerde gerçekten bir "doğru" tahmin kavramı yoktur, yalnızca oluşturduğunuz tahminin aradığınız özelliklere sahip olması durumudur.

Tipik olarak bir CDF tahmin etmeye çalışıyorsanız, sadece $ Pr (X < x) = \ Sigma_ {i = 1} ^ n \ mathbb {I} _ {x _ {(i)} \ le x} (x) n olan ECDF'yi (Deneysel CDF) kullanacaksınız ^ {- 1} $. $ X _ {(i)} $, $ i $ inci sıra istatistiğidir.

ECDF, CDF ile son derece tutarlı (noktasal olarak çift) olmak gibi birçok güzel özelliğe sahiptir.

Sürekli bir dağılımın ayrık bir yaklaşımına sahip olduğunuz için, olağan ayrık şekilde güven aralıkları için kullanılabilecek nicelikler üretebilirsiniz.

$ inf_x (x: Pr (X <x) \ ge \ pi) $

Elbette bir güven aralığının simetrik olması için bir neden yok, bu yüzden Açıklığa kavuşturulması gerektiğini düşündüğüm son ifade.

The comment was just that error bars are often reported as one number, as if they were symmetric, unless there is a good reason to expect strong asymmetry. Near the middle of the CDF I expect symmetry. At the edges, I don't have a reason to expect symmetry.
Bu, sadece örneklerde değil, her yerde doğrudan tahminler verir. Örnekler arasında bunlar biraz mantıklı, ancak örneklerde biraz daha az. Sürekli bir dağıtım için, esasen $ <$ ve $ \ leq $ arasında bir ayrım yoktur. Simetri düşüncesi, noktalarda k-1 veya k yerine "k-1/2" önerir. Bu, $ n \ rightarrow \ infty $ sınırında çok benzer özelliklere sahip olmalı, ancak düşük n için çok daha mantıklı görünüyor. Tek sayıda noktanın medyanı, $ Pr [X
I'm afraid I don't know the "usual discrete way" of generating these confidence intervals, nor does your $\inf$ notation make sense to me.
the inf notation is saying the smallest value of x in the set of x such that $Pr( X < x ) \ge \pi$
#2
+4
soakley
2015-02-09 08:22:28 UTC
view on stackexchange narkive permalink

Hata çubuklarını elde etmek için, tüm ampirik kümülatif dağılım işlevi (ECDF) etrafında bir güven aralığı oluşturabilirsiniz. Bu, Dvoretzky-Kiefer-Wolfowitz eşitsizliği kullanılarak yapılabilir. ECDF'nin $ 1- \ alpha güveniyle gerçek CDF'nin $ \ epsilon $ dahilinde olmasını istiyorsanız, $ n $ örnek boyutunu $$ n \ ge \ left ({{1} \ over {2 \ epsilon ^ 2}} \ right) \ mathrm {ln} \ left ({{2} \ over {\ alpha}} \ right) $$

Yani, örneğin, ECDF'nin % 95 güvenle CDF'nin 0,01 $ dahilinde olması, $$ n \ ge 18444.4 $$'ı bağlayarak bulduğumuz için $ n = 18445'i seçiyoruz. $

#3
+3
Dikran Marsupial
2011-09-23 13:28:33 UTC
view on stackexchange narkive permalink

Her zaman bir çekirdek yoğunluğu tahmincisi kullanabilirsiniz (c.d.f.'yi c.d.f.s bileşeninin ağırlıklı toplamı olarak da verir). Daha sonra, mevcut verileri önyükleyerek hata çubukları alabilirsiniz. Bunun uygulanması oldukça basittir ve güzel, iyi huylu ve hata çubuklu düzgün c.d.f.s verir.

The KDE doesn't seem to add anything to just bootstrapping with the Empirical CDF.
Pürüzsüzlük ve farklılaşabilirlik? Noktalar arasında "enterpolasyonu" gerçekleştirir, ancak doğrudan enterpolasyondan daha olasılıklı bir şekilde. Düzgün bir c.d.f'ye ihtiyacınız yoksa. daha sonra önyüklemeli deneysel CDF, diğerleri kadar iyi bir yaklaşım gibi görünüyor.
#4
+2
yannick
2011-09-22 13:21:10 UTC
view on stackexchange narkive permalink

Bayesci bir yaklaşımda, PDF'yi tahmin etmek ve sonra entegre etmek için bir Dirichlet Süreci (DP) kullanabilirsiniz. Yapmaya çalıştığınız şey, belirli değerlerdeki örneklere dayalı olarak işlevi tahmin etmektir. DP yaklaşımı, bir pürüzsüzlük varsayımını birleştirmenize olanak tanır; bu yararlıdır, çünkü genellikle bir merdiven gibi görünen bir çözümden farklılaştırılabilir bir çözümü tercih edersiniz. Analizinizin sonucu, özellikle size bir ortalama fonksiyon ve bununla ilgili bazı hata çubukları veren fonksiyonlar üzerinde bir dağılımdır.

Aşağıdaki kitap Dirichlet süreçleriyle ilgili güzel bir bölüme sahiptir: O'Hagan, A. ve Forster, JJ (2004). Bayesian Inference, 2. baskı, "Kendall's Advanced Theory of Statistics" kitabının 2B cildi. Arnold, Londra.

PDF ile ilgilenmiyorum, sadece CDF ile ilgileniyorum, bu yüzden PDF'nin düzgünlük özellikleri önemli değil. (Ve aslında hemen hemen her yumuşatma prosedürünün uçlara yakın olanlar dışında oldukça iyi çalıştığı konusunda yeterince noktam var.) Aslında yapmak istediğim şey, CDF'ye eğriler uydurmak. Bu amaçla, verileri, ağırlıklar için hata çubuklarıyla tutarlı bir şekilde CDF'ye tahminler olarak ele alabilmek istiyorum.
AilisqgffsCMT you get error bars on the CDF with that method, that's the point I was trying to make. If you don't want to integrate the PDF and work directly on the CDF, you can use a gaussian process on your data points, pretty much like you suggested. The gaussian process will then yield the most likely interpolant and its error bars.
Neden Gauss hata çubukları? $ X _ {(k)} $ noktasındaki beta (k, n-k) hata çubukları gibi bir şeyin uygun olacağını düşünüyorum. Ve tabii ki gerçekten bitişik noktalar birbiriyle bağlantılı gibi görünüyor ...
what do you mean by gaussian error bars? I must add that what I meant was truly confidence interval, and not error bars. And the GP accounts for correlation in neighboring points, that's the whole point of using it.
Beta için, aslında bu yüzden beta dağıtımının işlevlerine bir genelleme olan Dirichlet sürecini kastediyordum.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...