(a) Önce mekanikten ziyade temeldeki fikri açıklamama izin verin - geriye dönüp bakıldığında daha açık hale geliyorlar. Sonra (b) ki-kare hakkında konuşacağım (ve uygun olup olmadığı - olmayabilir!) Ve sonra (c) R'de nasıl yapılacağından bahsedeceğim.
(a) Boş değer altında, popülasyonlar aynıdır. İki grubunuzu tek bir büyük veri kümesine koyduğunuzu, ancak kohort etiketlerini içeren bir sütun eklediğinizi hayal edin. Daha sonra, sıfırın altında, kohort etiketi etkin bir şekilde, gözlemin geldiği dağılım hakkında size daha fazla bir şey söyleyen rastgele bir etikettir.
Alternatife göre, elbette, kohort etiketleri önemlidir - kohort etiketini bilmek size onu bilmemekten daha fazlasını anlatır çünkü iki etiketin altındaki dağılımlar farklıdır.
(Bu hemen Örnek üzerinde hesaplanan bir istatistiğin - alternatife duyarlı bir istatistiğin, aynı istatistiğin dağılımı ile rasgele sıralara yeniden atanan kohort etiketleri ile karşılaştırıldığı bir tür permütasyon testi / randomizasyon testi önerir. bir permütasyon testi, sadece örnek alırsanız bu bir randomizasyon testidir.)
(b) Peki şimdi ki-kare nasıl yapılır?
Boş değerin altında beklenen değerleri hesaplarsınız . Grup etiketleri boş değer altında önemli olmadığından, her bir hücrede beklenen sayıyı genel dağıtıma göre hesaplarsınız:
Durum AB ... E ... G ... Toplam Kohort 1: 10 15 18 84 Kohort 2: 9 7 25 78 Toplam: 19 22 ... 43 ... 162
Öyleyse dağılım aynıysa, hiçbir kohort ve durum arasındaki ilişki ve (satır toplamları ve sütun toplamları için koşullu) $ (i, j) $ hücresindeki beklenen sayı satır-toplam-i $ \ times $ sütun-toplam-j / genel- toplam
Yani sıradan bir ki-kare bağımsızlık testi yaptırırsınız.
ANCAK!
Durum etiketleri sıralı bir kategori oluşturuyorsa, bu ki-kare testi pek çok bilgiyi çöpe atıyor demektir - ilginç alternatiflere karşı düşük bir güce sahip olacaktır (daha yükseğe veya daha aşağıya doğru hafif bir kayma gibi) kategoriler). Bu durumda daha uygun bir şey yapmalısınız - yani, bu sıralamayı dikkate alan. Pek çok seçenek var.
-
(c) Şimdi bunu R'de nasıl yapacağınızla ilgili - verilerinizin şu anda R'de nasıl ayarlandığına bağlı - bu gerçekten verilerinizin bir alt kümesi gibi yeniden üretilebilir bir örneğe sahip olmanıza yardımcı olur!
Biri durum (faktör) ve diğeri olmak üzere iki sütunlu bir veri çerçevesine sahip olduğunuzu varsayacağım kohort ile (ikinci bir faktör).
Öyle gibi:
status cohort1 B Cohort12 B Cohort13 D Cohort14 B Cohort15 C Cohort16 D Cohort1. .. 25 G Cohort226 E Cohort227 E Cohort228 D Cohort229 C Cohort230 G Cohort2
O zaman bu statusresults
adlı bir veri çerçevesi olsaydı, aşağıdaki gibi bir tablo alırdınız Daha önce yaptığım bir:
> with (statusresults, table (cohort, status)) statuscohort ABCDEFG Cohort1 2 6 7 3 0 0 0 Cohort2 0 0 2 2 4 1 3
Ve kare testi için, şu şekilde gidersiniz:
> with (statusresults, chisq.test (status, cohort)) Pearson Chi-square testdata: status ve kohort X-kare = 18.5185, df = 6, p-değeri = 0.005059 Uyarı mesajı: chisq.test'te (durum, kohort): Ki-kare yaklaşımı yanlış olabilir
( uyarı, çok küçük bir örnek kullandığım için bazı hücrelerde beklenen sayıların düşük olmasından kaynaklanmaktadır)
Durum kategorileri sıraladıysanız, bunu söylemelisiniz, böylece analiz için diğer olasılıkları tartışabiliriz. düz kare.