Soru:
Örnekte% 10'un üzerinde olduğu gibi çok sayıda çok değişkenli aykırı değeri silebilir miyim?
Emily Jones
2011-09-04 09:20:03 UTC
view on stackexchange narkive permalink

Yaklaşık 9000 vakadan oluşan bir veri kümem var, bir faktör analizi yapıyorum ve 1100 vakanın çok değişkenli aykırı değer olarak tanımlandığını buldum. Öne geçip onu silmem benim için uygun mu?

% 10'dan fazlasını kastetmiştim!
Bu soruyu "faktör analizi" ile etiketlediğinizde, çalışmanızın amacı / bağlamını biraz daha genişletebilir misiniz? Özellikle, istatistik birimleriniz neye göre 'aykırı' kabul ediliyor?
Bunları uç değerler olarak sınıflandırmak için hangi yöntemi kullandınız?
üç yanıtlar:
#1
+10
Karl
2011-09-04 09:38:29 UTC
view on stackexchange narkive permalink

Verilerin% 10'unun dışarıdan nasıl çağrılabileceğini anlamak zor.

Ne yaptığınızı açıkça söylediğiniz sürece, onları ihmal edemeyeceğinizi söyleyen hiçbir şey yoktur. Ancak, bu belirli durum biraz aşırı görünüyor.

Konu aykırı değerlere gelince, öncelikle soruyorum, bunlar hata mı? Hatalarsa, düzeltmek isterim; Onları düzeltemezsem, onları göz ardı etmekte makul derecede rahat olurdum (yine de önyargı konusunda endişelenirdim).

Hata gibi görünmüyorlarsa (veya söylemenin bir yolu yoksa), ben soracaktım: sonuçları etkiliyorlar mı? Onları atlamak, vermeyerek aynı cevabı verirse, mutlu olurum ve devam ederim. Eğer önemliyse, daha sağlam bir analiz yöntemi arardım.

Aykırı değerleri belirlemek için yönteminize daha yakından bakarım: açıkça yanlış olan bir tür varsayım mı yapıyor?

En önemlisi, bu puanların% 10'luk kısmının aykırı değerler olarak adlandırılmasına neden olan şeyin ne olduğunu ve makul görünüp görünmediğini görmek için verinin çok sayıda farklı grafiğine bakardım. nasıl olabileceğini göremiyorum).

Mahalanobis'i çok değişkenli aykırı değerleri tespit etmek için kullandım ve aslında aykırı değerler verilerin% 10'undan fazlası. Yanlış girilip girilmediğini kontrol ettim ama sorun değildi. Tek değişkenli aykırı değerlere baktım ve bu iyiydi, ancak çok değişkenli analiz çalıştırdığımda, verilerin% 10'undan fazlasının aykırı değerler olmasıyla sonuçlandı. Yani, belirttiğim sürece silme işlemine devam edebilir miyim?
@Emily, veri transkripsiyon hataları, ölçüm hatasının tek biçimi değildir. Daha genel olarak, Karl muhtemelen ölçüm cihazının kendisindeki hatalara da atıfta bulunuyordu. Ölçüm aracınıza rastgele olarak çok büyük bir ortalama sıfır değeri eklenmişse, veri kümesinden aşırı durumları silmek isteyebilirsiniz. Örneğin, ölçüm aracınızın yalnızca yüksek değerleri hatalı olarak raporlaması (bu durumda önyargıya sahip olursunuz).
Mahalanobis mesafesindeki aykırı değerin nasıl tanımlandığından emin değilim, ancak benim tahminim çok değişkenli normallik varsayımı altında türetildiği yönünde. Ve muhtemelen şüpheli olan nokta değil, MVN varsayımıdır. Mahalanobis mesafelerinin histogramına bir göz atın.
Mahalanobilerin histogramına bakacağım. Bunu düşünmemiştim. Teşekkür ederim!
#2
+4
Peter Flom
2011-09-04 16:29:19 UTC
view on stackexchange narkive permalink

@karl broman'ın mükemmel noktasına ek olarak, kaç değişken olduğunu da merak ediyorum. "Boyutluluk laneti" ile karşılaşıyor olabilirsiniz.

Ayrıca, bazı keyfi eşiklerden dolayı aykırı değerleri SİLMEM. Ne çalıştığınızı söylemediniz, ancak çoğunlukla ilginin olduğu yerde aykırı değerler.

Ve @Karl'ın önce grafiklere bakma konusundaki görüşüne kesinlikle katılıyorum - ÇOK sayıda grafik .

171 değişkenim var. Anketin faktör yapısını bulmaya çalışıyorum. Çok uzun, kısaltmaya çalışıyoruz, bu yüzden faktör analizinden geçiyorum ve işte o zaman bu kadar çok sayıda aykırı değerle karşılaşıyorum. Grafikleri kastettiğinizde, her iki değişkenin grafiğini mi kastediyorsunuz?
Peter'a katılıyorum - beklentilere uymadığı için verileri atmayı sevmiyorum.
Tamam, bu yüzden verileri yavaş yavaş öğreniyoruz. Anket yeni mi yoksa mevcut mu? Ne yapmak niyetindeydi? Ankette neden 171 soru var? Faktör analizi onu kısaltmaya nasıl yardımcı olacak? Faktör analizi gizli değişkenleri bulur - ancak gizli değişkenler * gizlidir *.
bu mevcut bir tane ama ayrıca bazı yeni 56 öğe de dahil ettik. 14 maddeden oluşan bir faktörümüz olduğu için hedef daha güçlü bir ölçüm yapmaktır. Bu 56 maddeye eklediğimiz şekliyle de araştırıyoruz. Mahalanobiler için histogramları ve neredeyse düz u eğrisini çalıştırdım. Bunun ne anlama geldiğini bilmiyorum !!!!
@emily Neden daha güçlü bir ölçüme ihtiyacınız olduğunu anlamıyorum çünkü "bir faktörde 14 madde var". Güvenilirlik veya geçerlilik eksikliği kanıtı varsa, daha güçlü bir ölçüme ihtiyacınız olacaktır. Orijinal ölçeğin psikometrik özellikleri nelerdi?
#3
+4
rolando2
2011-09-05 20:53:58 UTC
view on stackexchange narkive permalink

Yukarıdaki konular ilginç olsa da, 171 maddeyle geçerliliğin istatistiksel olanları geçersiz kılan bir endişe olacağını düşünüyorum. İnsanların mekanik olarak cevap vermesi gibi gerçek bir risk vardır, bu da düzleşmeye veya bir hale veya boynuz etkisini temsil eden çok büyük bir başlangıç ​​faktörüne neden olur. Bence ekibiniz, anketi yapmak istediğiniz istatistiksel analizler için daha değerli hale getirecek daha yönetilebilir bir düzeye indirmek için istatistiksel olmayan kriterleri kullanabilmelidir.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...