Soru:
Aykırı değerleri içermeyen ortalamaya ne diyorsunuz?
Tawani
2009-02-02 20:21:12 UTC
view on stackexchange narkive permalink

Aykırı değerleri içermeyen ortalamaya ne denir?

Örneğin, bir kümeniz varsa:

  {90,89,92,91,5 } ort = 73,4  

ancak aykırı değeri (5) hariç tutarak

  {90,89,92,91 (, 5)} ort = 90.5 

İstatistiklerde bu ortalamayı nasıl tanımlıyorsunuz?

https://sciencing.com/calculate-outliers-5201412.html Yukarıdaki bağlantının kesinlikle soruyu yanıtladığını hissettim.
Bu, varsayılan aykırı değerlerin nasıl tanımlandığına bağlıdır.Bu, kırpılmış bir ortalama veya bir Winsorized ortalama veya başka bir sağlam konum tahmini olabilir.
Bu sorunun başlığını gördüğümde, burada bir önemli nokta bulmayı umuyordum ...
On beş yanıtlar:
#1
+64
dsimcha
2009-02-02 20:24:32 UTC
view on stackexchange narkive permalink

Buna kırpılmış ortalama denir. Temel olarak yaptığınız şey, verilerinizin orta% 80'inin ortalamasını hesaplamak, üst ve alt% 10'unu yok saymaktır. Elbette bu sayılar değişebilir, ancak genel fikir budur.

"En büyük% 10" gibi bir kural kullanmak mantıklı değil. Ya hiç aykırı değer yoksa? % 10 kuralı yine de bazı verileri ortadan kaldıracaktır. Kabul edilemez.
See my answer for a statistically-significant way to decide which data qualify as an "outlier."
Well, there's no rigorous definition of outlier. As for your response, if there are outliers they will affect your estimate of the standard deviation. Furthermore, standard deviation can be a bad measure of dispersion for non-normally distributed data.
Doğru, kesin bir tanım yok, ancak soruda verilen örnek de dahil olmak üzere, pek çok yaygın durumda yüzdeliğe dayalı olarak elemek kesinlikle yanlıştır.
Also, outliers will not affect standard deviation much. Unless there are many of them, in which case they aren't outliers! You might for example have a bi-modal or linearly random distribution, but then throwing out data is wrong, and indeed the notion of "average" might be wrong.
Kesilmiş ortalama, medyanı sınırlayıcı bir durum olarak dahil etme avantajından da yararlanır, yani, her iki taraftaki verilerin% 50'sini kırptığınızda.
** Bu yanıt yanlıştır: ** yalnızca bir (düşük) değer atıldığından, sonuç "kırpılmamıştır", bu da tanım gereği veri dağıtımının her iki ucundaki eşit sayıda değeri kaldırır.
@whuber Öyle değil.Literatür kesinlikle, bir kuyrukta sıfır durumu da dahil olmak üzere, oranların her kuyrukta eşit olmadığı kesilmiş araçları içerir.Örnekler, http://onlinelibrary.wiley.com/book/10.1002/9781118165485 adresinde belirgindir. Başka türlü yapmak için bir gerekçe olmadan dağılımların yaklaşık olarak simetrik olduğu yerlerde (a) eşit oranların kullanılması makul bir kuraldır (b), ancakBu, kesilmiş bir ortalamanın tek olası tanımı değildir.Açıkça analiz ve yorum, oranlardaki tüm farklılıkları hesaba katmalıdır.
@Nick Açıklama için teşekkür ederiz.Yine de daha ileri gideceğim ve (a) verilerin gözlemlenen dağılımından bağımsız olduğu ve (b) * a priori * alt sınırın% 20 kırpılmasını önerdiği hususlar nedeniyle bu "aykırı" hariç tutulmadığı sürecebu durumda sorudaki süreci bir "kırpma" prosedürü olarak nitelendirmek yanıltıcı olur.Aykırı değer tespiti ve reddi gibi görünüyor, saf ve basit.* Sonuç * aynı görünse de, * istatistiksel prosedürler * olarak iki kırpma ve aykırı değer kaldırma işlemi çok farklıdır.
@whuber Kabul ediyorum;şahsen _trimming_'i, içgüdüsel tahminler de dahil olmak üzere diğer bazı kriterlere dayalı bir aykırı değer kaldırma yaklaşımının gerçekte ne olduğunu açıklamak için kullanmam.Ancak ayrım, bakanın zihnindedir: "Bunun gibi veriler için, her kuyrukta% 5 kırpmak iyi bir fikir gibi görünüyor" ile "Verilere baktım ve en yüksek% 5 muhtemelen en iyisidir" arasında bir fark vardıryok sayılır ", vb. Formüller analistin tutumunu bilmiyor, ancak ikincisi, araştırmacının ne yapıldığına dair gerekçesidir.
Buradaki kırpma tek taraflıydı.Hem üstten hem de alttan kırparsanız, 92'yi de dağıtımın% 40'ını keserek kaldırırsınız.
#2
+38
Jason Cohen
2009-02-02 20:44:31 UTC
view on stackexchange narkive permalink

İstatistiksel olarak mantıklı bir yaklaşım, bir standart sapma sınırı kullanmaktır.

Örneğin, tüm sonuçları +/- 3 standart sapmayı kaldırın.

"En büyük% 10" gibi bir kural kullanmak mantıklı değil. Ya hiç aykırı değer yoksa? % 10 kuralı yine de bazı verileri ortadan kaldıracaktır. Kabul edilemez.

Bu yaklaşımın işe yaramadığını söyleyecektim (patolojik durum = -1 ile +1 arasında 1000 sayı ve ardından +10000 değerinde tek bir aykırı değer) çünkü bir aykırı değer ortalamayı saptırabilir, böylece sonuçların hiçbiri 3 dahilinde olmaz ortalamanın stddev'i, ancak matematiksel olarak * çalışıyor * gibi görünüyor.
It's not at all hard to prove that there has to be at least one data point within one standard deviation (inclusive) of the mean. Any outlier big enough to pull the mean way out is going to enlarge the standard deviation a lot.
http://en.wikipedia.org/wiki/Chebychev%27s_inequality Bu, dağıtımdan bağımsız olarak geçerlidir.
ooh! thanks dsimcha! Chebyshev is one of my math heroes (mostly for function approximations).
The problem is that "outlier" isn't post-hoc conclusion about a particular realized data set. It's hard to know what people mean by outlier without knowing what the purpose of their proposed mean statistic is.
Dolayısıyla, "kabul edilemez" şeklindeki kategorisel ifadeniz anlamsız ve pek yardımcı olmuyor. Kesilmiş ortalamanın bazı yararlı özellikleri vardır ve herhangi bir istatistik gibi bazıları daha az yararlıdır.
@Gregg: Size katılıyorum. İfadeniz benimkinden daha doğru. Ancak yine de, genel olarak yüzdelik dilimden ziyade yayılmaya bağlı olmanın daha yararlı olduğunu iddia ediyorum.
Bu konudaki diğer yorumların aksine, böyle bir prosedürün istatistiksel anlamlılıkla ilişkili olmadığını unutmayın.
#3
+21
Mark Lavin
2009-02-02 21:11:56 UTC
view on stackexchange narkive permalink

Aykırı değerleri belirlemek için başka bir standart test, LQ $ - $ (1.5 $ \ times $ IQR) ve UQ $ + $ (1.5 $ \ times $ IQR) kullanmaktır. Bu, standart sapmayı hesaplamaktan biraz daha kolaydır ve daha geneldir çünkü temel verilerin normal bir dağılımdan olduğuna dair herhangi bir varsayımda bulunmaz.

Ama herhangi bir varsayımda bulunmazsa, neye dayanıyor?En azından aykırı değerin tanımı gibi bir şey olmalı?
formül çeyrek tabanlıdır, bu nedenle ortalamadan ziyade medyana bağlıdır
1.5 çarpanı bir soruyu gündeme getiriyor, neden 1.5?Ve görünüşe göre biraz normal dağılıma dayanıyor. Bunu doğrudan bir guassian dağıtımına uygularsanız, şunları elde edersiniz: 0.675σ + 1.5 * (0.675 - [-0.675]) σ = 0.675σ + 1.5 * 1.35σ = 2.7σ Bu, "aykırı değerler" olarak işaretlemek için kabul edilebilir bir aralıktır. referans: https://medium.com/mytake/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097
#4
+19
nickf
2009-02-02 20:29:15 UTC
view on stackexchange narkive permalink

Bahsettiğiniz "ortalama" aslında "ortalama" olarak adlandırılır.

Sorunuzu tam olarak yanıtlamıyor, ancak aykırı değerlerden etkilenmeyen farklı bir istatistik medyan, yani , ortadaki sayı.

  {90,89,92,91,5} ortalama: 73.4 {90,89,92,91,5} medyan: 90  

Bu sizin için yararlı olabilir, bilmiyorum.

Hepiniz noktayı kaçırıyorsunuz. Bunun ortalama, medyan, mod, stdev vb. İle hiçbir ilgisi yoktur. Şunu düşünün: {1,1,2,3,2,400} ort = 68,17 ama bizim istediğimiz şey: {1,1,2,3, 2,400} ortalama = 1,8 // eksi [400] değeri
@Tawani - noktayı kaçırmıyorlar. Söylediklerinizin genel terimler kullanılarak tanımlanması gerekir. Tek bir örnekle gidemezsin. Genel tanımlar olmadan, 400 30 ise yine de aykırı değer midir? Ve eğer 14 ise? Ve 9? Nerede duruyorsun Bunu yapmak için stddev'lere, aralıklara, çeyreklere ihtiyacınız var.
#5
+18
Mr Fooz
2009-02-02 20:24:58 UTC
view on stackexchange narkive permalink

Çok özel bir ad için, aykırı değer reddi mekanizmasını belirtmeniz gerekir. Genel bir terim "sağlamdır".

dsimcha bir yaklaşımdan bahseder: kırpma. Diğeri ise kırpmadır: bilinen-iyi aralığın dışındaki tüm değerler atılır.

#6
+9
mvrak
2009-02-02 20:31:28 UTC
view on stackexchange narkive permalink

Aykırı değerlerden kurtulmak için kullanılan Q testi gibi çeşitli mekanizmalar nedeniyle resmi bir isim yoktur.

Aykırı değerlerin kaldırılmasına kırpma adı verilir.

Şimdiye kadar kullandığım hiçbir programda entegre kırpma () içeren ortalama () yoktur

R'deki "mean ()" bir trim argümanına sahiptir http://stat.ethz.ch/R-manual/R-devel/library/base/html/mean.html
Düzeltmede aykırı değerleri kaldırmazsınız;bunları hesaplamaya dahil etmiyorsunuz."Kaldır", noktaların artık veri kümesinde olmadığını gösterebilir.Aykırı oldukları için onları çıkarmaz (veya görmezden gelmez);kriter (genellikle) verilerin aşırı bir bölümünde yer almalarıdır.Kesilmiş ortalamaya dahil edilmeyen bir değer, genellikle dahil edilen en yüksek (en düşük) değerden yalnızca biraz daha fazla (veya daha az) olur.
#7
+7
Jason S
2009-02-02 20:25:44 UTC
view on stackexchange narkive permalink

Adı olup olmadığını bilmiyorum, ancak aykırı değerleri reddetmek için kolayca bir dizi algoritma bulabilirsin:

  1. 10 ile 90 arasındaki tüm sayıları bulun yüzdelik dilimler (bunu ilk N $ / 10 $ ve son $ N / 10 $ sayıları sıralayıp sonra reddederek yapın) ve kalan değerlerin ortalama değerini alın.

  2. Değerleri sıralayın , yüksek ve düşük değerleri reddettiğiniz sürece, ortalama / standart sapma $ X \% $ 'dan fazla değişir.

  3. Değerleri sıralayın, yüksek ve düşük değerleri reddedin bunu yapmak koşuluyla, söz konusu değerler ortalamadan $ K $ 'dan fazla standart sapma olacaktır.

#8
+4
Nick Fortescue
2009-02-13 15:22:20 UTC
view on stackexchange narkive permalink

Sağlam (kötü verilere dirençli anlamına gelen genel kelime) ortalamaya sahip olmanın en yaygın yolu, medyan kullanmaktır. Bu, sıralı listedeki orta değerdir (ortadaki iki değerin ortasıdır), bu nedenle örneğiniz için 90,5 = 90 ile 91 arasında orta değer olacaktır.

Gerçekten elde etmek istiyorsanız sağlam istatistiklere (örneğin, güçlü standart sapma tahminleri vb.) AGORAS grubunda kodun kaybolmasını tavsiye ederim, ancak bu sizin amaçlarınız için çok ileri düzeyde olabilir.

#9
+4
Sergio R F Oliveira
2014-12-03 18:18:40 UTC
view on stackexchange narkive permalink

... {90,89,92,91 (, 5)} ort = 90.5

İstatistiklerde bu ortalamayı nasıl tanımlıyorsunuz? ...

Bu yöntemin özel bir tanımı yok. Hedef kitleye her zaman sonucunuza nasıl ulaştığınızı söylemeniz ve eğer isterlerse onlara gösterecek aykırı değerlere sahip olmanız koşuluyla (ve bana inanın: isteyeceklerdir) istediğiniz herhangi bir isim verin.

#10
+3
robin.datadrivers
2014-12-03 19:58:47 UTC
view on stackexchange narkive permalink

Sahip olduğunuz tek şey tek bir değişkense (sizin de ima ettiğiniz gibi), yukarıdaki katılımcılardan bazılarının yaklaşımınızı aşırı eleştirdiğini düşünüyorum. Elbette kaldıraç gibi şeylere bakan diğer yöntemler istatistiksel olarak daha sağlamdır; ancak bu, bir çeşit modelleme yaptığınızı gösterir. Örneğin, yaşlı vatandaşların bir sınavına veya yaşına ilişkin puanlarınız varsa (örneğinizde makul durumlar), ortaya çıkardığınız aykırı değere şüpheyle yaklaşmanın pratik ve makul olduğunu düşünüyorum. Genel ortalamaya ve kırpılmış ortalamaya bakabilir ve ne kadar değiştiğini görebilirsiniz, ancak bu, örneklem büyüklüğünüzün bir fonksiyonu ve aykırı değerleriniz için ortalamadan sapma olacaktır.

Bunun gibi korkunç aykırı değerlerle, neden böyle olduğunu anlamak için kesinlikle veri oluşturma sürecine bakmak isteyeceksiniz. Bu bir veri girişi mi yoksa idari bir şans mı? Eğer öyleyse ve gerçek gerçek değerle büyük olasılıkla ilgisiz ise (bu gözlemlenmemişse), bana kırpmak için mükemmel görünüyor. Anlayabildiğiniz kadarıyla gerçek bir değerse, analizinizde açıkça belirtmediğiniz sürece kaldıramazsınız.

#11
+1
Samir Rachid Zaim
2020-01-12 23:40:44 UTC
view on stackexchange narkive permalink

Buradaki tartışmayı seviyorum. Kesilmiş ortalama, verilerin ortasında yoğunlaşan merkezi bir eğilim tahmini elde etmek için güçlü bir araçtır.

Eklemek istediğim tek şey, küçük ve büyük örneklem boyutlarında hangi "metrik" in kullanılacağına ilişkin yapılacak bir seçim olduğudur. Bazı durumlarda

  • , merkezi limit teoremi nedeniyle büyük örnekler bağlamında anlamına gelir,
  • sağlam küçük örneklem alternatifleri olarak medyanlar
  • ve kırpılmış, aykırı değerler kadar sağlam anlamına gelir.

Açıkçası, yukarıdakiler büyük bir genellemedir, ancak büyük ve küçük örneklem ortamlarında ve bunların özelliklerinde tahmin edicilerin aileleri ve sınıflarından bahseden ilginç makaleler var. Ben biyoinformatikte çalışıyorum ve genellikle fare modellerinde genellikle küçük örneklerle (3-10s) ilgileniyorsunuz ve ne yapmıyorsunuz ve bu makale hangi alternatiflerin var olduğuna ve bu tahmin edicilerin hangi özelliklere sahip olduğuna dair iyi bir teknik genel bakış sunuyor.

Rçok küçük örneklerde sağlam tahmin

Bu elbette bir makale, ancak bu tür tahmin edicileri tartışan çok sayıda başka makale var. Bu yardımcı olur umarım.

#12
  0
robert king
2018-03-09 01:09:55 UTC
view on stackexchange narkive permalink

sorumluluk reddi - bu yöntem anlıktır ve titiz bir çalışma gerektirmez. Kendi sorumluluğunuzda kullanın :)

Oldukça iyi bulduğum şey, bir puan katkısının, ortalama'den standart sapma sayısının square'in ortalamasına olan ilgisini azaltmaktı, ancak yalnızca nokta ortalamadan birden fazla standart sapma ise.

Adımlar:

  1. Ortalama ve standart sapmayı her zamanki gibi hesaplayın.
  2. Ortalamayı yeniden hesaplayın, ancak bu sefer, her değer için, ortalamadan birden fazla standart sapma ise ortalamaya katkısını azaltın. Katkısını azaltmak için, toplama eklemeden önce değerini sapma sayısının karesine bölün. Ayrıca daha az katkı sağladığı için N'yi Azaltmamız gerekiyor, bu nedenle N'den 1-1 / (değerlerin karesi sapmasını) çıkarın
  3. Standart sapmayı yeniden hesaplayın, ancak eski ortalama yerine bu yeni ortalamayı kullanın.

örnek: stddev = 0.5 ortalama = 10 değer = 11

sonra, sapmalar = ortalamaya uzaklık / stddev = | 10-11 | /0.5 = 2

Dolayısıyla değer 11'den 11'e değişir / (2) ^ 2 = 11/4

ayrıca N değişiklik, N-3 / 4'e düşürüldü.

kod:

  def ortalama (veriler):
    "" "Verilerin örnek aritmetik ortalamasını döndür." ""
    n = len (veri)
    eğer n < 1:
        ValueError değerini yükselt ('ortalama en az bir veri noktası gerektirir')
    return 1.0 * sum (data) / n # Python 2'de sum (data) / float (n) kullan

def _ss (veriler):
    "" "Sıra verilerinin kare sapmalarının toplamını döndür." ""
    c = ortalama (veri)
    ss = toplam ((x-c) ** 2 verilerdeki x için)
    dönüş ss, c

def stddev (veri, ddof = 0):
    "" "Popülasyon standart sapmasını hesaplar
    varsayılan olarak; örneği hesaplamak için ddof = 1 belirtin
    standart sapma."""
    n = len (veri)
    eğer n < 2:
        ValueError'ı yükselt ('varyans en az iki veri noktası gerektirir')
    ss, c = _ss (veriler)
    pvar = ss / (n-ddof)
    dönüş pvar ** 0.5, c

def rob_adjusted_mean (değerler, s, m):
    n = 0.0
    tot = 0.0
    değerlerde v için:
        fark = abs (v - m)
sapmalar = fark / s
        eğer sapmalar > 1:
            # bu bir aykırı değerdir, bu nedenle alaka düzeyini / ağırlıklandırmasını sapma sayısının karesine göre azaltın
            n + = 1.0 / sapmalar ** 2
            tot + = v / sapmalar ** 2
        Başka:
            n + = 1
            tot + = v
    toplam dönüş / n

def rob_adjusted_ss (değerler, s, m):
    "" "Sıra verilerinin kare sapmalarının toplamını döndür." ""
    c = rob_adjusted_mean (değerler, s, m)
    ss = toplam ((x-c) ** 2, değerlerdeki x için)
    dönüş ss, c

def rob_adjusted_stddev (veriler, s, m, ddof = 0):
    "" "Popülasyon standart sapmasını hesaplar
    varsayılan olarak; örneği hesaplamak için ddof = 1 belirtin
    standart sapma."""
    n = len (veri)
    eğer n < 2:
        ValueError'ı yükselt ('varyans en az iki veri noktası gerektirir')
    ss, c = rob_adjusted_ss (veriler, s, m)
    pvar = ss / (n-ddof)
    dönüş pvar ** 0.5, c

s, m = stddev (değerler, ddof = 1)
baskı s, m
s, m = rob_adjusted_stddev (değerler, s, m, ddof = 1)
baskı s, m
 

50 ölçümümün ayarlanmasından önce ve sonra çıktı:

  0.0409789841609 139.04222
0.0425867309757 139.030745443
 

enter image description here

Bu neden geleneksel yöntemlerden daha iyi olabilir?
Teşekkürler, bu yaklaşıma aşina değilim.Bir sapmanın karesine bölünmesi, sapmalar <| 1 | olduğunda olağandışı sonuçlar verebilir.Bu yöntemin teorik bir temeli var mı?
Bunu sadece standart sapmanın 1'den büyük olduğu değerler için yapmaktan bahsetmiştim, Chebyshev'in eşitsizliğine göre, değerlerin büyük ölçüde etkileneceği çok sık değil.
Bu tekniğin daha önce kullanılmış olup olmadığından emin değilim, oldukça sezgisel göründüğü için daha önce kullanılmamışsa şaşırırdım.Üretim hatlarındaki ürünlere ilişkin nelson kurallarının ihlal edildiğini fabrika çalışanlarına bildirmek için kullanıyorum.Rapor edilen ihlallerin sayısını azaltıyor gibi görünüyor, ancak yine de kritik ihlalleri buluyor gibi görünüyor.Nelson kuralları, bir satırdaki birden çok değerin 1 stddev'in üstünde veya altında olmasıyla veya daha az sayıda nokta 2stddev veya 3stddev ile ilgilidir. @MichaelChernick Geleneksel yöntemlere aşina değilim, Winsorized ilginç görünüyor, siyah kuğu olaylarında farklı sonuçlar verebilir.
Tam olarak SD'lerin * sayısını * kastetmedim.SD = .3 ve sapmanın .54 olduğu bir durum hayal edin.O zaman sapma> 1SD'dir, ancak SD'nin karesine böldüğünüzde, .54 / .3 ^ 2 = .54 / .09 = 6'yı bölersiniz. Yani, sapma şimdi ayarlamanın b / c'sinden daha büyüktür,küçültmek yerine.
Bu prosedür * ad hoc * olmasına rağmen, özü itibariyle bir [M-tahmincisine] (https://en.wikipedia.org/wiki/M-estimator) benzer.Aldığınız yorumların bir nedeni, bunun gibi prosedürlerin özelliklerinin analiz edilebilmesi ve incelenebilmesi ve genel olarak, bu tür bir çalışmanın eksikliğinin prosedürün iyi anlaşılmadığını ve muhtemelen diğerlerinden daha düşük olduğunu göstermesidir.Dolayısıyla, özelliklerini akıllıca ve doğru bir şekilde uygulanmasını sağlamak için yeterince karakterize etmek için yeni bir prosedür öneren herkesin görevidir.Böyle bir nitelendirmenin olmadığı durumlarda okuyucular bunu benimsemekte isteksiz olmalıdır.
@gung Sanırım bir yazım hatası aldım - sapma ile standart sapmaların sayısını kastetmiştim.bu nedenle, SD'nin .3 olması durumunda, bir değer, etkilenecek ortalamadan .3'ten fazla olmalıdır.değerler ortalamadan uzaklığı .54 ise, sapmaları .54 / .3 = 1.8'dir ve bu nedenle 1.8 ^ 2 = 3.24'e böleriz ve bu nedenle değer, önceki kadar önemli 1 / 3.24 olacaktır.
@whuber haklısınız, bu prosedür ad hoc.haklısınız okuyucular bunu benimseme konusunda isteksiz olmalı.Yorumlardan hoşlanıyorum :) Birisi benim yöntemimle ilgili bir sorun bulsaydı harika olurdu :) - yanıta bir sorumluluk reddi beyanı ekleyeceğim
Tavrınıza hayranım (cidden!).Bununla birlikte, ispat yükümlülüğünün size ait olduğunu unutmayın.Tavsiyenizin doğruluğunu veya yararlılığını göstermek sizin işinizdir (alıntı veya meşru bir argüman yoluyla).Bu analizi yapmak bizim görevimiz değil.Size bu prosedürün iyi özelliklere sahip olduğuna dair biraz umut veren bir teoriye işaret ettim, ancak bu genel - ancak son derece etkili - bir istatistik meta kanunu, aksi ispatlanana kadar * özel * prosedürlerin kabul edilemez olduğu (yani basitçe var olduğu anlamına gelir)daha iyi çalışan başka bir prosedür).
Açıklama için teşekkürler, bu çok daha mantıklı.
#13
  0
NuclAcc
2018-03-09 02:07:58 UTC
view on stackexchange narkive permalink

IQR veya SD tabanlı yöntemlere göre daha üstün yöntemler vardır. Aykırı değerlerin mevcut olması nedeniyle, dağıtımın halihazırda normallikle ilgili sorunları vardır (dağıtıcılar dağıtımın her iki ucunda da eşit olarak dağıtılmadıkça). Bu, SD'yi çok şişirerek SD'lerin istenenden daha az kullanılmasına neden olur, ancak SD yönteminin IQR yöntemine göre bazı arzu edilen yönleri vardır, yani IQR'nin 1.5 katı nispeten öznel bir sınırdır. Bu konularda öznellik kaçınılmaz olsa da, onu azaltmak tercih edilir.

Öte yandan, bir Hampel Tanımlayıcısı, aykırı değerleri tahmin etmek için sağlam yöntemler kullanır. Esasen SD yöntemiyle aynıdır, ancak araçları medyanlarla ve SD'yi Medyan Mutlak Sapmalarla (MAD) değiştirirsiniz. ÇH'ler medyadan sadece medyan uzaklıktır. Bu MAD, bir ölçekleme sabiti .675 ile çarpılır. Formül (X - Medyan) / (. 675 * MAD) olarak çıkar. Ortaya çıkan istatistik, bir Z skoru ile aynı şekilde ele alınır. Bu, olası normal olmama sorununu atlar, eğer aykırı değerleriniz varsa mevcut olabilir.

Nasıl adlandırılacağına gelince. Kesilmiş araçlar normalde @dsimcha tarafından belirtilen alt ve üst yüzde on'u kırpma yöntemi için ayrılmıştır. Tamamen temizlenmişse, buna temizlenmiş ortalama veya sadece ortalama olarak başvurabilirsiniz. Yazarken ona ne yaptığınızı netleştirdiğinizden emin olun.

Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., & Stahel, W. A. ​​(1986). Sağlam İstatistikler. John Wiley & Sons, New York.

#14
-4
Samster
2014-04-29 07:32:50 UTC
view on stackexchange narkive permalink

Medyan olabilir. Her zaman değil ama bazen. Diğer durumlarda ne denildiği hakkında hiçbir fikrim yok. Umarım bu yardımcı olmuştur. (En azından biraz.)

#15
-4
Mike
2016-03-26 08:13:52 UTC
view on stackexchange narkive permalink

İstatistik ders kitabım bundan Nüfus Ortalamasının aksine Örnek Ortalama olarak bahsediyor.Örnek, tam veri kümesine bir kısıtlama uygulandığını, ancak veri kümesinde herhangi bir değişiklik (kaldırma) yapılmadığını gösteriyor.

0. Siteye hoş geldiniz.1. Hangi kitap?Lütfen bir referans verin.2. "Örnek ortalama" tipik olarak aykırı değerler çıkarıldıktan sonra elde edilen bir ortalamaya atıfta bulunmaz.
Bu doğru değil.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 2.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...