Soru:
Verilerimdeki eksikler tamamen rastgele dağıtılıyor mu?
Robert
2011-06-16 20:08:03 UTC
view on stackexchange narkive permalink

Çocukların aritmetik görevler üzerindeki puanlarını içeren ve muhtemelen çocukların yaşından dolayı çok sayıda eksik değere sahip büyük bir veri setim var. Benim hipotezim, eksikliğin tamamen rastgele değil, rastgele olduğudur. Bir CFA yapmam gerekiyor ve yaşa şartlandırmam gerekip gerekmediğini bilmek istiyorum. SPSS 17'nin eksik değerler analizi olduğunu biliyorum ancak verilerim R'de ve oldukça büyük. R'de eksik değerler analizi yapmak istiyorum ancak bunu yapabilecek bir paket bulamadım. Bilen var mı?

üç yanıtlar:
#1
+14
Bernd Weiss
2011-06-16 22:03:56 UTC
view on stackexchange narkive permalink

@Dirk Eddelbuettel'in de bahsettiği gibi, sorularınız çok net değil. Aslında, iki soru sorduğunuzu düşünüyorum. İlk soru, M (C) AR varsayımınızla ilgilidir. İkinci soru (bir) uygun R paketi (paketleri) hakkındadır.

(1) MAR için "Test"

Yaşın puan değişkeninizin eksikliğinde bir etkisi olup olmadığını test etmek için basit bir lojistik yordayıcı değişken olarak yaş içeren regresyon modeli. Yanıt değişkeniniz 0: puan eksik değil, 1: puan eksik (ayrıca @ mbq yanıtına ve @ Makronun yorumuna bakın). Küçük çocukların matematik puanlarını bildirmeme ihtimalinin daha yüksek olduğu varsayımı göz önüne alındığında, yaşın önemli bir olumsuz etkisini görmeyi bekliyoruz.

  ## Bazı dataset.seed (2) oluşturun ## Küçük çocukların matematik puanlarını bildirmeme olasılığı daha yüksektir, ## bu nedenle davranışınmissData <-rpois modelini oluşturmak için Poisson dağılımı kullanıyorum ( 10000, 10) dfr <- data.frame (skor = rnorm (100), yaş = örnek (6:15, 100, değiştir = DOĞRU)) dfr <- dfr [order (dfr $ yaş),] dfr $ agemiss < - sort (örnek (missData, 100, replace = TRUE)) dfr $ miss <- ifelse (dfr $ agemiss == dfr $ age, 1, 0) ## Öngörücü olarak yaş ile lojistik regresyonu çalıştırın> özeti (glm (miss ~ yaş, veri = dfr, aile = iki terimli)) [...] Katsayılar: Std'yi tahmin edin. Hata z değeri Pr (> | z |) (Kesişme) 5.9729 1.4946 3.996 6.43e-05 *** yaş -0.7997 0.1760 -4.544 5.53e-06 *** --- [...]  

(2) (Bazı) Eksik verilerle ilgili R paketleri

Bu paketlerden bazılarının, eksiklik modellerini (örneğin, eksik) keşfetme işlevleri de vardır. mi paketindeki pattern.plot () ).

"MCAR" testine ilginç bir yaklaşım!Ancak ** alternatifler ** hakkında ne düşünüyorsunuz: * BaylorEdPsych` R paketinde uygulanan `MCAR` için Little testi * (http://www.jstor.org/discover/10.2307/2290157) ve Jamshidian tarafından yapılan testlerve Jalal * (http://www.jstatsoft.org/v56/i06/paper), 'MissMech` R paketinde uygulanmış mı?
@AleksandrBlekh Teşekkürler, bu testlerin farkında değildim!
`mi :: missing.pattern.plot ()` artık mevcut değil gibi görünüyor.
#2
+7
user88
2011-06-16 21:30:04 UTC
view on stackexchange narkive permalink

Sorunuzu anladığım kadarıyla, verilerinizdeki eksik değerlerin bazı modeller nedeniyle ortaya çıkıp çıkmadığını araştırmak istiyorsunuz. Bu durumda, herhangi bir "eksik değer analizine" ihtiyacınız yoktur - bu, puanın 0.7'den büyük olup olmadığını kontrol etmekle aynı problemdir. Veri kümenizi iki sınıflı faktöre (eksik, eksik olmayan) dönüştürün ve korelasyonları arayın.

BTW bu, insanların SPSS veya SAS gibi şeylerde işlevleri yapay olarak çoğaltma yöntemidir.
+1. "Eksik" i ikili sonuç olarak düşünün ve örneğin lojistik regresyon kullanarak tahmin değişkenlerinden herhangi biriyle ilişkili olup olmadığına bakın. CFA'nın neden gerekli olacağından emin değilim. Balyozla çivi çakmak gibi.
#3
+3
Dirk Eddelbuettel
2011-06-16 20:27:04 UTC
view on stackexchange narkive permalink

Sorunuzun deşifre edilmesi biraz zor. Eksik verilerle başa çıkmak için bir yaklaşım isnat - ve bununla ilgili önemli bir literatür ve CRAN a'da zaten geniş ve büyüyen bir paket kümesi var > oradan başlamak isteyebilirsiniz.

bütün cevapların için teşekkür ederim. Sorumun aslında çok net olmadığını görüyorum. Sormak istediğim şey, eksik veriler tamamen rastgele mi (MCAR) ve bunu R'de nasıl yaparım.
Lojistik regresyon, bunu test etmek için yeterli bir yöntem gibi görünüyor. Eksik olanın niteliğini bilmememin nedeni, FIML ile tüm veri setinde (eksiklerle) bir CFA gerçekleştiriyor olmam. Bununla birlikte, eğer eksik MCAR değil, MAR ise, o zaman gizli değişkenleri yaşa göre koşullandırmam gerekir (yaş, gizli değişken aritmetik yeteneğini tahmin etsin). Neyse, sorunum çözüldü, tekrar teşekkürler. Şerefe


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...