Soru:
IID binom değişkenlerinin maksimum (min) asimptotik dağılımı
gui11aume
2015-01-20 18:24:38 UTC
view on stackexchange narkive permalink

$ k \ uparrow \ infty $ ve $ k / n \ rightarrow \ lambda $ /

$$ \ max (X_1, \ ldots, X_k) olduğunda sınırlayıcı dağılımı bilmek istiyorum, \ text {$ X_i $ burada IID $ B (n, p) $}. $$

Bu büyük olasılıkla bir Gumbel dağıtımıdır. Eğer durum gerçekten böyleyse, benim için en önemli şey bu Gumbel'in parametrelerini $ (k, n, p) $ 'ın bir fonksiyonu olarak bilmektir.

$ n $, $ k $ ile $ \ infty $ konumuna nasıl gidiyor?
@Xi'an Sonsuzluğa gitmesi gerekmediğini düşünüyorum.Ancak $ n $ büyükse, iki terimliyi bir Gauss ile yaklaşık olarak tahmin edebiliriz ve $ k $ sonsuza giderken, $ k $ IID Gauss değişkenlerinin maksimum değeri bir Gumbel eğilimindedir.
$ N $, $ N $ ile sınırlandırılmışsa, asimptotik olarak maksimum, $ N $ 'dan küçük veya ona eşit bir tamsayıya eşittir.Dahası, tüm $ k $ için dağıtımı $ \ {0,1, \ ldots, N \} $ desteği ile ayrıktır.
@whuber Tabii ki haklısın.Sorunun anlamsız olduğunu mu yoksa yaklaşık bir sonuç olarak yeniden ifade etmem gerektiğini mi söylüyorsunuz?
Soru anlamsız değil - ama cevap önemsiz görünüyor.Durumunuz sabit bir $ n $ ve $ p $ 'dan daha karmaşıksa, @Xi'an'nin sorduğu gibi $ n $ ve $ p $' nın $ k $ 'nın bir fonksiyonu olarak değişip değişmeyeceği ve nasıl değişebileceği konusunda net olmanız gerekir.İlginç olan, argümanınızın neden başarısız olduğudur.Diğer şeylerin yanı sıra, Binom'a Normal yaklaşım kuyruklarda kusurludur ve maksimum gibi uç değerler hakkında sonuçlar çıkarmak için kullanıldığında hızla zayıflar.Diğer bir neden de, * sınırlı * (sürekli) değişkenlerin maksimumlarının sınırda bir Gumbel dağılımına sahip olmamasıdır!
@whuber Tamam, noktayı anlıyorum, gerçeklik kontrolü için teşekkürler.$ N $ sabitlenmişse, sınırlayıcı dağılımın Gumbel olmadığı doğrudur (daha çok tip III aşırı değer dağılımı).
@Xi'an Sorunuzu yanıtlamak için soruyu düzenledim.
Sabit $ n $ için aşırı bir değer dağılımı elde edemezsiniz (bunun gerçekleşmesi için, temel dağılımın maksimumunun bir çevresinde sürekli olması gerekir, ki bu değil).* $ \ Max (X_1, \ ldots, X_k) $ 'ın her * dağılımı ayrıktır ve $ k $ büyüdükçe olasılık $ n $ üzerine yığılır.($ K = tp ^ {- n} $, $ \ Pr (\ max (X_i) = n) \ yaklaşık 1-e ^ {- t} $ için.) Bu dağılımları nasıl normalleştirdiğiniz önemli değil, asla benzemeyecekleraşırı değer dağılımları.Limitleri, $ n $ 'ın kendisinde bir atomdur.
Sorunun düzenlenmiş hali çok daha ilginç!
Iki yanıtlar:
Boddle
2015-02-03 05:26:06 UTC
view on stackexchange narkive permalink

$ k / n \ rightarrow \ lambda $ sınırı çok ilginç değil. Ancak, örnek boyutunun $ n $ ile üssel olarak artmasına izin verirseniz, sınırlayıcı bir dağılım elde edersiniz, bu "ayrık bir Gumbel" (yukarıdaki açıklamaların hızını ayarlayın). Örneğin, basitlik için $ p = 0.5 $ olsun, böylece $ X_i $ IID $ B (n, 0.5) $ olur, burada $ n $ büyüktür ve örnek boyutu $ k $ üssel olarak artar (ancak $ 2 ^ n $) - $ k = 2 ^ m $ deyin, burada $ n>m> \ frac {n} {2} $. Maksimumdan ziyade minimumla ilgilendiğimizi varsayalım (aynı şeye geliyor ama yazmak biraz daha kolay). Normal yaklaşım, çok büyük bir örneklemde tamamen işe yaramaz - genellikle negatif bir minimum önerir.

Minimumun dağılımı, $ \ mathbb {P} (X_i \ le d) \ yaklaşık 2 ^ {- m} $, böylece $ \ mathbb {P} (min (X_i) >d) \ yaklaşık e ^ {- 1} $. Aşağıdaki çalışma, $ m $, $ n $ 'a yakın olana kadar $ d $' ın sıfıra yaklaşmayacağını göstermektedir - aslında $ \ frac {d} {n} $, belirli bir $ \ frac {m} oranı için neredeyse sabit olacaktır { n} $. Ve bu bölgede Binom dağılımı, ayrık (tersine çevrilmiş) bir üsse yakın olacaktır, bu nedenle minimumun dağılımı, ayrık bir ters Gumbel dağılımına yakın olacaktır.

Ayrıntıları çalışmak: Stirling yaklaşımı kullanarak faktöriyel için, iki terimli katsayıyı şu şekilde tahmin edebiliriz: $$ \ binom {n} {d} \ yaklaşık \ frac {1} {\ sqrt {2 \ pi n}} \ left (\ frac {d} {n} \ sağ) ^ {- d-1/2} \ left (1- \ frac {d} {n} \ right) ^ {- n + d-1/2}. $$

Eğer $ n \ gg d \ gg 1 $, sonra $ j \ ge0 $, $$ \ mathbb {P} (X_i = dj) \ yaklaşık \ left (\ frac {d} {nd} \ right) ^ j \ mathbb { P} (X_i = d) $$ (çarpım hızla sıfıra giderken iki terimli katsayılar arasındaki ardışık oranlar yavaşça değişir), bu nedenle $$ \ mathbb {P} (X_i \ le d) \ yaklaşık \ left (1- \ frac {d} {n} \ right) \ left (1-2 \ frac {d} {n} \ right) ^ {- 1} \ mathbb {P} (X_i = d). $$

Kümülatif olasılık için bir ifade elde etmek için yukarıdakileri birleştirerek, bu kümülatif olasılığı 2 $ ^ {- m} $ 'a eşitleyerek, 2 ^ n $ ile çarparak, günlükleri alıp $ n $ ile bölerek, şunu elde ederiz: : $$ - \ left (\ frac {d} {n} + \ frac {1} {2n} \ right) log \ left (\ frac {d} {n} \ sağ) - \ left (1- \ frac {d} {n} - \ frac {1} {2n} \ right) log \ left (1- \ frac {d} {n} \ right) - \ frac {1} {n} log \ left (1- 2 \ frac {d} {n} \ right) = log (2) \ left (1- \ frac {m} {n} \ right) + log (2 \ pi n) / 2n. $$ Yazma $ \ nu = \ frac {d} {n} + \ frac {1} {2n} $ ve $ \ alpha.log (\ alpha + \ delta) \ yaklaşık \ alpha.log (\ alpha) + \ delta $ küçük için $ \ delta $: $$ - \ nu.log (\ nu) - (1- \ nu) log (1- \ nu) - \ frac {1} {n} log (1-2 \ nu) = log ( 2) \ left (1- \ frac {m} {n} \ right) + log (2 \ pi n) / 2n. $$ Bu, Newton-Raphson ile yeterince kolay çözülebilir. Küçük üçüncü terim indirildiğinde ($ d $ değeri, $ n \ ge 100, m \ ge n / 2 $ için en fazla 0,15 etkilenir), $ \ frac {d} {n} $ 'ın yalnızca bağımlı olduğunu görürüz $ \ frac {m} {n} $ üzerinde, eğer $ n $ büyükse ve sabit oranda $ n $ ve $ m $ arttığı için sıfıra meyilli değildir.

Sürekli bir çözüm bulmuş olmak $ d $ en yakın tam sayıya $ \ hat {d} $ yuvarlıyoruz. (Süreklilik düzeltmesi ve doğru şekilde yuvarlama konusunda biraz daha dikkatli olabilir, ancak burada gerekli değildir.) $ \ Hat {\ lambda} = \ frac {n- \ hat {d}} {\ hat {d} yazın } >1 $. $ \ Rho = 2 ^ m \ mathbb {P} (X_i \ le \ hat {d}) $ yazın: $ 1 / \ sqrt {\ hat {\ lambda}} \ le \ rho \ le \ sqrt {\ hat {\ lambda}} $. Ardından: $$ \ mathbb {P} (X_i = \ hat {d} -j) \ yaklaşık \ mathbb {P} (X_i = \ hat {d}) \ hat {\ lambda} ^ {- j}, $$ ve bu yaklaşım, $ n $ ve $ \ hat {d} $ birlikte arttıkça daha iyi hale gelir. Öyleyse: $$ \ mathbb {P} (X_i \ le \ hat {d} -j) \ yaklaşık \ mathbb {P} (X_i \ le \ hat {d}) \ hat {\ lambda} ^ {- j} = 2 ^ {- m} \ rho \ hat {\ lambda} ^ {- j}, $$ ve böylece $$ \ mathbb {P} (min (X_i) > \ hat {d} -j) = (1- \ mathbb {P} (X_i \ le \ hat {d} -j)) ^ {2 ^ m} \ yaklaşık (1-2 ^ {- m} \ rho \ hat {\ lambda} ^ {- j}) ^ { 2 ^ m} = e ^ {- \ rho \ hat {\ lambda} ^ {- j}}. $$

$ x = \ hat {d} -j $ yazarsak $$ \ rho \ hat {\ lambda} ^ {- j} = e ^ {log (\ rho) - \ hat {d} .log (\ hat {\ lambda}) + x.log (\ hat {\ lambda}) }, $$ so $$ \ mathbb {P} (min (X_i) >x) \ yaklaşık exp (-e ^ {\ frac {x- \ mu} {\ sigma}}) $$, $ \ mu parametrelerine sahip ayrık bir ters Gumbel'dir = \ hat {d} - \ frac {log (\ rho)} {log (\ hat {\ lambda})} $ ve $ \ sigma = \ frac {1} {log (\ hat {\ lambda})} $ .

$$ \ hat {\ lambda} \ yaklaşık \ lambda = \ frac {nd} {d} \ text {ve} \ hat {d} - \ frac {log (\ rho)} {log (\ hat {\ lambda})} \ yaklaşık d. $$

Okuyucu için alıştırma - $ p \ ne0.5 $?

Çok iyi yapılmış!Ve bu soruyu cevaplamak için siteye katıldığınız için teşekkür ederiz !!Bu benim için çok faydalı.
Belki bu soruya http://stats.stackexchange.com/q/136265/10849 da bakabilirsiniz.Cevaplamak için bazı çalışmalar yapıldıysa veya bu çok zorsa, bunu da bilmek beni mutlu eder.
$$ \ mathbb {P} (X_i \ le \ hat {d} -j) \ yaklaşık \ mathbb {P} (X_i \ le \ hat {d}) \ hat {\ lambda} ^ {- hakkında yorum yapabilir misiniz?j} = 2 ^ {- m} \ rho \ hat {\ lambda} ^ {- j} $$ $$ \ mathbb {P} (X_i = \ hat {d} -j) \ yaklaşık \ mathbb {P} (X_i = \ hat {d}) \ hat {\ lambda} ^ {- j} $$?
+1 Bu diğer cevapta kullanıldı (ve kısmen kopyalandı) https://math.stackexchange.com/questions/3152094 Binom için entropi yaklaşımını kullanmanın bazı şeyleri basitleştirdiğine inanıyorum.
gui11aume
2015-02-12 19:43:05 UTC
view on stackexchange narkive permalink

@Boddle'ın cevabı $ p \ neq 1/2 $ durumu için ayrıntı vermediğinden, bunu burada sağlayacağım.

Öncelikle, geometrik yaklaşım hala $ n için geçerli \ gg d \ gg 1 $. $ J \ geq 0 $ için

$$ \ mathbb {P} (X_i = dj) \ yaklaşık \ left (\ frac {1-p} {p} \ frac {d} {nd elde ediyoruz } \ right) ^ j \ mathbb {P} (X_i = d). $$

Sonra, $ \ mathbb {P} (X_i \ leq d) \ olacak şekilde $ d $ 'ı hesaplamalıyız yaklaşık 2 ^ {- m} $, sayısal çözüm yaklaşımı ile yapıldı, bu yüzden herhangi bir büyük zorluk çıkarmayacak. $ J $ 'ın tüm değerleri üzerinden toplayarak,

$$ \ mathbb {P} (X_i \ leq d) \ yaklaşık \ left (1- \ frac {d} {n} \ right) elde ederiz \ left (1- \ frac {1} {p} \ frac {d} {n} \ right) ^ {- 1}. $$

@Boddle'ın önerdiği prosedürün aynısını uygulamak, ancak $ 2 ^ n $ ile çarparak aşağıdaki denklemi elde ederiz

$$ - \ left (\ frac {d} {n} + \ frac {1} {2n} \ right) \ log \ left (\ frac {d} {n} \ sağ) - \ left (1- \ frac {d} {n} - \ frac {1} {2n} \ sağ) \ log \ left (1- \ frac {d} {n} \ sağ) - \ frac {1} {n} \ log \ left (1- \ frac {1} {p} \ frac {d} {n} \ sağ) + \ left (\ frac {d} {n} + \ frac {1} {2n} \ right) \ log \ left (\ frac {p} {1-p} \ right) = - \ log (1-p) - \ frac {m} {n } \ log (2) + \ frac {1} {2n} \ left (\ log \ left (\ frac {p} {1-p} \ sağ) + \ log (2 \ pi n) \ sağ). $ $

Tekrar $ \ nu = \ frac {d} {n} + \ frac {1} {2n} $ 'ı tanımlayarak, çözümü sayısal olarak bulunabilen bir denklem elde ederiz

$$ - \ nu \ log (\ nu) - (1- \ nu) \ log (1- \ nu) - \ frac {1} {n} \ log (1- \ nu / p) + \ nu \ log \ left (\ frac {p} {1-p} \ right) \\ = - \ log (1-p) - \ frac {m} {n} \ log (2) + \ frac {1} { 2n} \ left (\ log \ left (\ frac {p} {1-p} \ sağ) + \ log (2 \ pi n) \ sağ). $$

Tekrar, $ \ nu $ değerinin büyük $ n $ için yalnızca $ \ frac {m} {n} $ oranına bağlı olduğu açıktır. Yukarıdaki denklemin çözümünden $ d $ ve $ \ hat {d} $ değerlerine ulaşabiliriz ve son olarak $ \ hat {\ lambda} = \ frac {p} {1-p} \ frac {n- \ hat {d}} {\ hat {d}} $. Buradan itibaren çözüm, @Boddle tarafından bu tanım değişikliğiyle açıklandığı gibi.

Çözümü $ k \ sim \ gamma 2 ^ m $ durumunda vermek de yararlıdır, burada $ \ gamma > 0 $. $ \ Mathbb {P} (\ min X_i > d) \ yaklaşık e ^ {- 1} $. Sayısal olarak çözülecek denklemin artık

$$ - \ nu \ log (\ nu) - (1- \ nu) \ log (1- \ nu) - olması dışında hiçbir şeyin değişmediğini görebiliriz \ frac {1} {n} \ log (1- \ nu / p) + \ nu \ log \ left (\ frac {p} {1-p} \ sağ) \\ = - \ log (1-p) - \ frac {m} {n} \ log (2) + \ frac {1} {2n} \ left (\ log \ left (\ frac {p} {1-p} \ sağ) + \ log (2 \ pi n) + 2 \ log (\ gamma) \ right). $$

Büyük $ n $ için fark ihmal edilebilir hale gelir ve çözüm yaklaşık olarak yukarıdaki ile aynıdır.

$ D / n $ değerlerini, yukarıdaki denklemleri kullanarak sonsuz büyük $ n $ için $ m / n $ 'ın bir fonksiyonu olarak hesapladım. Aşağıdaki grafikte farklı $ p \ geq 1/2 $ değerleri için eğrileri gösteriyorum. Bu, $ k = 2 ^ m $ m'ye göre artarken minimumun beklenen değeri hakkında bir fikir verir.

Solution of d/n as a function of m/n for large n



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...