Soru:
Bilinen kümelerin ayrılmasını en üst düzeye çıkarmak için boyut azaltma tekniği?
dmonner
2011-10-01 04:46:16 UTC
view on stackexchange narkive permalink

Diyelim ki R ^ n'de n'nin oldukça büyük olduğu (50 gibi) bir sürü veri noktası var. Bu verilerin 3 kümeye ayrıldığını biliyorum ve her veri noktasının hangi kümenin parçası olduğunu biliyorum. Tek yapmak istediğim, bu kümeleri, gördüğüm görsel kümeler arası ayrımı en üst düzeye çıkaracak şekilde 2B'de görselleştirmek, amaç, kümelerin R'deki veri noktasının konumuna göre kolayca ayrılabileceğini kanıtlamaktır. ^ n tek başına.

Şimdiye kadar bu konuda gitme şeklim, veri noktalarında bir PCA dönüşümü yapmayı ve ardından kümelerin göründüğü bir tane bulana kadar PC çiftlerini rastgele görselleştirmeyi içeriyor. oldukça temiz bir şekilde ayrılmış. Yine de bu yaklaşım oldukça geçici görünmektedir ve genel varyansı en üst düzeye çıkarmak yerine küme arası ayrımı en üst düzeye çıkaran PCA tarzı bir veri dönüşü bulmanın kolay bir yolu olmalı gibi görünüyor.

Piyasada bunu yapan standart bir teknik var mı? Değilse, böyle bir dönüşümün nasıl yaratılacağına dair herhangi bir fikriniz var mı?

[Projection Pursuit] (http://en.wikipedia.org/wiki/Projection_pursuit) ilginizi çekebilir. ([GGobi] (http://www.ggobi.org/) yazılımında mevcuttur.)
Beş yanıtlar:
#1
+8
bayerj
2011-10-04 00:19:34 UTC
view on stackexchange narkive permalink

Aklıma gelen ilginizi çekebilecek iki yöntem var. İlki bilinen kümelerden yararlanmak ve Goldberger ve diğerleri tarafından 'Mahalle bileşenleri analizi' olarak adlandırılıyor.

Buradaki fikir, yüksek boyutlu uzaydan görselleştirilebilir bir alana bir eşleme (örneğin afin) öğrenmenizdir. (örneğin $ A: \ mathbb {R} ^ n \ mapsto \ mathbb {R} ^ 2 $). Bu eşleştirme, k-en yakın komşu sınıflandırmasının bir varyasyonu kullanılırsa, ortalama doğru sınıflandırma sayısının maksimize edilmesiyle tahmin edilir. Elde edilen bazı etkileyici sonuçlar var:

NCA on the wine, faces and digits dataset

Diğeri, bir eşlemeyi öğrenen tSNE 'dir (ör. $ A: \ mathbb {R } ^ n \ mapsto \ mathbb {R} ^ 2 $). Bu eşlemenin herhangi bir kısıtlaması yoktur, ancak optimize edilmiş kayıp (bazı parametrelere göre değil, ancak $ \ mathbb {R} ^ 2 $ 'ın kendisinde yeni noktalarla), yeni alanın benzer mesafeleri orijinal uzaya yansıtmasıdır. Benzer burada oldukça karmaşıktır, uzaydaki noktaların belirli dağılımlarını ve buna karşılık gelen KL-diverjansını varsaymaya dayanır.

İkincisi için, verilen bağlantıda bulabileceğiniz matlab kodu vardır. MNIST veri kümesinin görselleştirmesi:

tSNE on MNIST

#2
+6
ttnphns
2011-10-01 07:22:43 UTC
view on stackexchange narkive permalink

"Genel varyansı en üst düzeye çıkarmak yerine, kümeler arası ayrımı en üst düzeye çıkaran PCA tarzı bir veri dönüşü". Ayrımcı analizi tam olarak böyle bir tekniktir. Bir ana bileşen, varyansı maksimuma çıkarır. Ayrımcı bir işlev, küme varyansı / küme içinde havuzlanmış varyans arasındaki oranı en üst düzeye çıkarır.

Diskriminant analizi, verilerin 2 boyutlu bir şekilde gömülmesini sağlayan bir şey olarak kanonik olarak sunulmaz.Örneğin, Fisher's LDA'dan hangi 2d katıştırmayı öneriyorsunuz?
@eric_kernfeld, one, verileri ayırıcı işlevlerin uzayında kolayca çizer.Ayrıca, işlevleri [burada] (http://stats.stackexchange.com/a/22889/3277) ve [burada] (http://stats.stackexchange.com/q/12861/3277).
#3
+3
Dikran Marsupial
2011-10-01 16:44:37 UTC
view on stackexchange narkive permalink

Şu makaleye bakmak isteyebilirsiniz:

G. Sanguinetti, Kümelenmiş veri setlerinin boyutunun azaltılması, IEEE Trans. Örüntü Analizi ve Makine Zekası (PAMI) 30 (3), 535-540 (2008) (www)

Doğrusal diskriminant analizinin denetimsiz bir versiyonunu tanımlayan, bazılarını gördüm bunun gösterimleri ve araç kutusunda bulunması çok yararlı bir araç gibi görünüyor.

Her örneğin hangi sınıflara ait olduğunu biliyorsanız, o zaman (ttnphns'nin önerdiği gibi) Andrew Webb'in kitabı Linear Discriminant Analysis'i istiyorsunuz İstatistiksel örüntü tanıma üzerine bu tür şeyler için iyi bir referans kitabıdır.

#4
  0
james li
2011-10-03 19:03:51 UTC
view on stackexchange narkive permalink

"PCA, PLS, MLR ve CCA'ya Birleşik Yaklaşım" makalesi (M Borga ve diğerleri tarafından), PCA ve LDA dahil olmak üzere çeşitli doğrusal projeksiyon yöntemleri hakkında kısa bir açıklama sağlar.

#5
  0
Jared Schuetter
2011-10-03 21:31:58 UTC
view on stackexchange narkive permalink

Kısmi En Küçük Kareler istediğinizi yapar. R'deki "pls" kitaplığı, geleneksel olarak kullandığım şeydir. İşte 50 noktadan oluşan 3 grup oluşturan, bunları grup etiketleriyle bir veri çerçevesi içinde birleştiren ve üzerlerinde PLS çalıştıran bir örnek:

  library (MASS) library (pls) pts1 = mvrnorm (50 , c (3,0,3), diag (c (1,1,1))) pts2 = mvrnorm (50, c (-3,0,3), diag (c (1,1,1))) pts3 = mvrnorm (50, c (3,3, -3), diag (c (1,1,1))) pts = as.data.frame (rbind (pts1, pts2, pts3)) pts $ etiketler = c (rep (1,50), rep (2,50), rep (3,50)) plsresult = plsr (etiketler ~., ncomp = 2, data = pts) plot (plsresult $ score, col = pts $ etiketleri)  
Why not using PLS discriminant analysis in this case?


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...