Soru:
Eksik verilerin değiştirilmesi için ortalama ikame yöntemi güncel değil mi?
Melissa Duncombe
2011-05-23 16:34:00 UTC
view on stackexchange narkive permalink

Eksik verilerin değiştirilmesi için ortalama ikame yöntemi güncel değil mi? Kullanılması gereken daha karmaşık modeller var mı? Öyleyse, bunlar nedir?

[bu site] (http://www.multiple-imputation.com/) sorunuza cevap verebilir. "MI nedir" bağlantısı çeşitli kaynakların bir listesini verir.
Dört yanıtlar:
#1
+14
Nick Sabbe
2011-05-23 16:53:59 UTC
view on stackexchange narkive permalink

Sivrisinekleri bir topla vurmanın gerekli olmadığı gerçeğini (yani, bir milyon veri noktasında bir eksik değeriniz varsa, bırakın), ortalamayı kullanmak, en azını söylemek için yetersiz olabilir: sonuç önyargılıysanız ve en azından belirsizlik için sonucu düzeltmelisiniz.

Başka seçenekler de var, ancak açıklanması en kolay olanı çoklu ithamdır. Konsept basittir: Verilerinizin kendisi için bir modele dayalı olarak (örneğin, MICE gibi diğer seçenekler mevcut olsa da, tam vakalardan elde edilmiştir), veri kümenizi 'tamamlamak' için ilişkili dağıtımdan değerler alın. O zaman bu tamamlanmış veri kümesinde artık eksik verileriniz kalmaz ve ilgilendiğiniz analizleri çalıştırabilirsiniz.

Bunu yalnızca bir kez yaptıysanız (aslında, eksik değerleri ortalamayla değiştirmek çok Bunun çarpıtılmış biçimi), buna tek isnat adı verilir ve ortalama değiştirmeden daha iyi performans göstermesi için hiçbir neden yoktur.

Ancak, işin püf noktası bunu tekrar tekrar yapmaktır (dolayısıyla Çoklu Takdir) ve analizinizi her tamamlanmış (= tahmin edilen) veri kümesi üzerinde yapın. Sonuç tipik olarak tamamlanan her bir veri kümesi için bir dizi parametre tahmini veya benzeridir. Nispeten gevşek koşullar altında, parametre tahminlerinizin tüm bu isnat edilen veri kümeleri üzerinden ortalamasını almakta sorun yoktur.

Avantaj, eksik verilerin neden olduğu belirsizlik için standart hatayı ayarlamak için basit bir formül bulunmasıdır.

Daha fazlasını öğrenmek istiyorsanız, muhtemelen Little ve Rubin'in "Eksik Verilerle İstatistiksel Analiz" i okumak istersiniz. Bu aynı zamanda diğer yöntemleri (EM, ...) ve nasıl / neden / ne zaman çalıştıklarına dair daha fazla açıklama içerir.

+1 Ek bilgiler dahil ettiğiniz için tek ispatlamanın ortalama ikameden biraz daha iyi performans gösterdiğini varsayıyorum (0 $ tahmin edicilerine $ p $ tahmin edicilerine karşı). Bununla birlikte, MI'nın gitmenin yolu olduğuna tamamen katılıyorum.
#2
+11
Bernd Weiss
2011-05-23 16:54:42 UTC
view on stackexchange narkive permalink

Bize eksik verilerinizin doğası hakkında pek bir şey söylemediniz. MCAR'ı kontrol ettiniz mi ( Tamamen Rastgele Eksik)? MCAR'ı varsayamayacağınız göz önüne alındığında, ortalama ikame yanlı tahmincilere yol açabilir.

Matematiksel olmayan bir başlangıç ​​noktası olarak şu iki referansı önerebilirim:

  1. Graham, Hohn W. (2009): Eksik Veri Analizi: Yapma Gerçek Dünyada Çalışır.
  2. Allison, Paul (2002): Eksik veriler. ("Imputation" bölümüne bakın, s. 11)
@ Bernd Graham referansı son derece iyi, birden fazla ithamın askıya alınmasında bana çok yardımcı oldu.
#3
+2
Ralph Winters
2011-05-23 20:03:30 UTC
view on stackexchange narkive permalink

Eksik değerleriniz rastgele dağıtılmışsa veya örneklem büyüklüğünüz küçükse, ortalamayı kullanmanız daha iyi olabilir. Önce verileri iki kısma ayırırdım: 1 eksik değerlerle ve diğeri eksik değerlerle ve ardından iki örnek arasındaki bazı temel değişkenlerin anlamındaki farkı test ederdim. Herhangi bir fark yoksa, ortalamanın yerine geçmek veya sadece gözlemleri tamamen silmek için biraz desteğiniz var.

-Ralph Winters

Ancak ortalamayı kullanmak, o noktada değeri tahmin ettiğiniz anlamına gelir. Olan bu değil, olan şey rastgele bir değeri geri kazanma girişimidir. Görünüşe göre varyans için bir tahmininiz olduğu için her ikisini de kullanmanız gerekir (yani, dağılımdan rastgele bir çizim).
Buna ek olarak, ortalama ikame, tüm standart hatalarınızı ve analizinizin geri kalanı için güven aralıklarını atacak olan tahminlerinizin varyansını azaltacaktır.
Evet. Ben sadece, minimum kazanç pahasına çok fazla hesaplama gücü gerektirebilen MI'ya körü körüne dalmadan önce eksik ve eksik olmayan verilerin popülasyonlarının incelenmesini öneriyordum.
#4
  0
ayush biyani
2011-05-24 15:59:40 UTC
view on stackexchange narkive permalink

Eksik veriler her yerde büyük bir sorundur. Önce aşağıdaki soruya cevap vermenizi dilerim. 1) verilerin kaç% yaşı eksik? - eğer verilerin% 10'undan fazlası ise, onu ortalama ile suçlama riskini almazsınız. Çünkü bu tür bir eksikliğin ortalamayla ifade edilmesi, LR kutusuna baktığını söylemekle eşdeğerdir .. bu değişken yerlerin çoğunu ifade eder (bu yüzden bazı sonuçlar çıkarın) ve LR kutusunun önerileriniz üzerine sonuçlar çıkarmasını istemezsiniz. Şimdi, çok fazla istemiyorsanız en azından yapabileceğiniz şey, bu değişkenler mevcut değerleri farklı tahmin değerleriyle ilişkilendirmeye çalışabilir veya mümkün olan her yerde bir iş anlayışı kullanabilirsiniz ... örneğin ... evlilik_ind için bir eksikim varsa, şunlardan biri Evlilerin ortanca yaşını görme yolları olabilir, (diyelim ki 29 olarak çıkıyor), genel olarak insanların (Hindistan'da) 30 yaşında evlendiğini ve 29'un da öyle olduğunu varsayabilirim. PROC MI sizin için dahili olarak da bir şeyler yapar ama çok daha sofistike bir şekilde… yani benim 2 sentim… eksikliklerinizle bağlantılı en az 4-5 değişkene bakın ve bir korelasyon oluşturmaya çalışın… Bu, ortalamadan daha iyi olabilir.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...