Kesinlik-geri çağırma eğrisinin özet istatistikleri

Soru:

Amelio Vazquez-Reina

2013-02-13 22:00:13 UTC

view on stackexchange narkive permalink

Anladığım kadarıyla, ROC eğrisinin AUC'si tam eğrinin özet bir istatistiği olarak kullanılabilir.

S1. Tek bir kesinlik-geri çağırma eğrisinde kullanılabilecek benzer özet istatistikler var mı?

S2. Anladığım kadarıyla, $ F $-skoru ($ F_1 $ veya $ F_ \ beta $), belirli bir işletim hassasiyeti geri çağırma rejiminde ölçülüyor. yani, bir kesinlik oranı elde etmek için kesinlik-geri çağırma eğrisinde bir noktayı sabitlemek gerekir ve formüllerde bir sonuç elde etmek için bunun ilişkili geri çağırma oranı:

$ F_1 = 2 \ cdot \ frac {\ mathrm { hassas} \ cdot \ mathrm {hatırlama}} {\ mathrm {hassas} + \ mathrm {hatırlama}} $

$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {hassas} \ cdot \ mathrm {hatırlama}} {(\ beta ^ 2 \ cdot \ mathrm {hassas}) + \ mathrm {hatırlama}} $

Öyleyse, böyle bir noktayı nasıl seçer eğri mi?

üç yanıtlar:

Matt Krause

2013-02-13 23:01:43 UTC

view on stackexchange narkive permalink

"Ortalama Ortalama Kesinlik" (bazen kısaltılmış mAP veya MAP) istediğiniz şey olabilir. Bilgi alma sistemlerini değerlendirmek için oldukça yaygın olarak kullanılır ve hesaplaması oldukça basittir.

İlk olarak, belirli bir sorgu için ortalama hassasiyeti hesaplayın. Bunu yapmak için, belgeleri sıralayın ve ilgili her belgeyi aldıktan sonra doğruluğu hesaplayın. Örneğin, dört belgenin bu sorguyla alakalı olduğunu ve sistemimizin aşağıdakileri döndürdüğünü varsayalım:

Alakalı belge
Alakasız belge
Alakalı belge
Alakalı belge
Alakasız belge
Alakasız belge.
İlgili belge

İlgili ilk belge birinci konumdadır ve buradaki kesinlik 1/1 = 1,0'dır. Sonraki ilgili belge 3. konumdadır; Şimdiye kadar görülen üç belgeden ikisi konuyla ilgilidir, bu nedenle buradaki hassasiyetimiz 2/3. 4. belge de ilgilidir ve buradaki kesinlik puanı 3 / 4'tür. Son ilgili öğe yedinci konumdadır ve bize 4/7 hassasiyet verir.

Bu sorgu için ortalama kesinliği elde etmek için bu kesinlik puanlarının (1/4 * (1 + 2/3 + 3/4 + 4/7) = ~ 0.747) ortalamasını bulun. Ortalama ortalama kesinlik, değerlendirme kümenizdeki tüm sorgulardaki bu ortalamaların sadece ortalamasıdır.

Bir hassas geri çağırma ödünleşimi seçmek büyük ölçüde size bağlıdır. $ F_1 $ puanı onlara eşit ağırlık verir; $ F_ \ beta $ içindeki $ \ beta $ değerini, hatırlamak için hassasiyetten $ \ beta $ kat daha fazla ağırlık veriyor olarak yorumlayabilirsiniz. Bazı çalışmaların, kullanıcıların hatırlamak için hassasiyeti tercih ettiklerini gösterdiğine inanıyorum, ancak bunun büyük ölçüde uygulamaya ve kullanım durumuna bağlı olduğuna eminim. Google'ın kedilerle ilgili her web sayfasını bana göstermesine kesinlikle ihtiyacım yok, ancak ilk sayfadaki tüm sitelerin alakalı olmasını istiyorum. Diğer taraftan, bir mahkeme davası için keşif yapıyorsanız, alakalı olabilecek her belgeyi iade etmeniz daha önemli olabilir.

Bu harika bir cevap. Teşekkürler Matt! Hala sorduğum bir sorum, * "$ F_1 $ onlara [kesinlik - hatırlama] eşit ağırlık veriyor" * dediğin zaman. Ama yine de $ F_1 $ formülündeki sayıları doldurmak için geri çağırma eğrisinde ** bir nokta ** seçmeniz gerekiyor, değil mi? $ F_1 $ onlara eşit ağırlık verir, ancak eğri üzerinde kesinliğin hatırlamadan daha yüksek olduğu (veya tam tersi) bir nokta seçebilirim. Anladığım doğru mu?

Evet! Bunu şöyle düşünebilirsiniz: hassas geri çağırma değiş tokuşunu seçmek, sisteminizin diğer parametreleri gibidir. Bir kaçını rapor etmek istiyorsanız, 1) bu noktadaki seçiminizi değiştirebileceğinizi VEYA 2) $ F_ \ beta $ puanları için $ \ beta $ seçiminizi değiştirebileceğinizi ima etmeye çalışıyordum.

user88

2013-02-14 19:51:50 UTC

view on stackexchange narkive permalink

Aslında, PR eğrisinin yalnızca bir EAA ölçüsü vardır; Biyolojide (özellikle DREAM meydan okuma serisi ortamında) kullanılır, çünkü AUROC ile tutarlıdır (yani performans önemli ölçüde farklıysa sıralama genellikle aynıdır) yine de AUROC'tan daha düşük değerler vererek daha iyi sayısal çözünürlük verir.

Sorun, AUPR'nin dikkatli bir entegrasyon gerektirmesidir, bu nedenle doğru bir uygulama bulmak oldukça zordur.

Bu konu hakkında kanonik bir makale.

Teşekkürler mbq. Hala sahip olduğum ve @Matt'nin zaten yanıtladığından emin olmadığım bir soru şudur: $ F_1 $ formülündeki sayıları doldurmak için geri çağırma eğrisinde belirli bir ** nokta ** seçmem gerekir mi? (aksi takdirde değerini nasıl hesaplayabilirim?). Öyleyse, bu ** noktayı ** nasıl seçerim? (ve belirli hassas geri çağırma numaraları)?

Dan Stowell

2014-04-01 13:13:41 UTC

view on stackexchange narkive permalink

Yalnızca tek bir (kesinlik, geri çağırma) veri noktası için ROC'nin AUC'sini hesaplayabilirsiniz .

Bu makale, Kesin olmayan ortamlar için sağlam sınıflandırma, dışbükey gövde AUC'nin nasıl hesaplanacağını açıklar (şimdi oldukça standarttır). Yalnızca bir (kesinlik, geri çağırma) noktanız olduğunda, her zaman hayır deme (0,0) noktasına kadar düz bir çizgi ve her zaman evet deme (1,1) noktasına kadar düz bir çizgi uzatırsınız, ve dışbükey gövdeye sahipsiniz.

Şimdi net sonuç: bu durumda, yalnızca bir koordinatla hesaplama,

$ AUC = (t - f + 1) / 2 $.

Bu, başka yerlerde de belirtildiği gibi AUC ile Gini katsayısı arasındaki bağlantıyı vurgular.

ⓘ

Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.

about - legalese