Soru:
Rastgele Orman Tahminlerini çalıştırmadan önce Veri Düzeltme ile En İyi Uygulamalar
Thiago Balbo
2015-09-17 05:03:59 UTC
view on stackexchange narkive permalink

Rastgele Ormanlar ile tahmin yaparken, çok sık (veya her zaman) bazı ön işlemler gerçekleştirmemiz gerekir. Bilgisayarla ilgili bir geçmişim olduğundan ve istatistiklerden bildiğim hemen hemen her şey kendi kendine öğrenmeden geldiğinden, bu süreç daha fazla sezgi ve daha az teori haline geliyor.

Örneğin, takıldığım şeylerden bazıları uğraşmak

  1. Aykırı Değerler. Hepsini kaldırmalı mıyız? Öyleyse, 3/2 kuralına dayalı bir aykırı değer düşünüyoruz. Onları saklamalı mıyız? Neden?
  2. Gözlem deltalarıyla uğraşırken (örnek olarak, bir öğrenci notunu diğerinden çıkardığımı varsayalım), tüm öğrencilerin deltasını normalleştirmeli miyim yoksa sadece mutlak deltaya bağlı kalmalı mıyım?
  3. Aynı öğrenci vakasına bağlı kalmak, Kümülatif verilerim varsa (varsayalım ki her test için son notlarını topladım). İşlem aynı mı olmalı?
  4. log veya başka herhangi bir veri dönüşümü uygulamamız gerekiyor mu? Eğer öyleyse, ne zaman yapılmalı? Veri aralığı geniş olduğunda? Buradaki verinin alanını değiştirmenin amacı nedir?
  5. Kategorik bir hedefim varsa, sınıflandırma yerine regresyon uygulayabilir miyim, böylece çıktı şöyle olur (sınıfların 0, 1, 2 olduğunu varsayalım) 0.132 , 0.431. Daha doğru olur muydu?
  6. Rastgele Orman ne tür problemlerde daha çok belirtilir? Büyük veri kümeleri mi?
  7. Daha az önemli değişkenleri atmalı mıyım? Belki sadece gürültü yaratır?

Ön işlemenin soruna, verilere vb. Bağlı olduğunu biliyorum ve ön işlem sırasında aranacak daha çok şey olduğunu biliyorum. Burada, verilerin önceden işlenmesinin arkasındaki kavramları ve bunu yaparken aranacak kilit noktaları daha fazla anlamaya çalışıyorum. Öyleyse, bunu akılda tutarak, verileri ön işlerken bakılması gereken temel noktalar nelerdir? (Başka önemli bir noktadan bahsetmediysem ve eminim çok şey eksik, lütfen bunu da düşünün). Bunu büyükbabana öğrettiğini hayal et :)

üç yanıtlar:
Antoine
2015-09-20 20:24:31 UTC
view on stackexchange narkive permalink

Rastgele Ormanlar ile tahmin yaparken, çok sık (veya her zaman) bazı ön işlemler gerçekleştirmemiz gerekir.

Bu doğru değil. Rastgele Orman gerçekten "kullanıma hazır".

Aykırı Değerler. Hepsini kaldırmalı mıyız? Öyleyse, 3/2 kuralına dayalı bir aykırı değer düşünüyoruz. Onları saklamalı mıyız? Neden?

RF'de kullanılan temel model büyük bir karar ağacıdır (genellikle CART aracılığıyla oluşturulur). Karar ağaçları, onları özellik alanının küçük bölgelerinde izole ettikleri için aykırı değerlere karşı sağlamdır. Daha sonra, her bir yaprak için tahmin ortalama (regresyon için) veya çoğunluk sınıf (sınıflandırma için) olduğundan, ayrı yapraklarda izole edildiğinden, aykırı değerler, tahminlerin geri kalanını etkilemeyecektir (örneğin, regresyon durumunda, bunlar diğer yaprakların ortalamasını etkilemez). Sonuç olarak: RF'deki aykırı değerler umrunda değil. Anormal gözlemlerse (örneğin, kayıt hataları nedeniyle) bunları kaldırın. Geçerli vakalarsa, onları koruyabilirsiniz.

Gözlem deltalarıyla uğraşırken (örnek olarak, bir öğrencinin notunu diğerinden çıkardığımı varsayalım), deltayı normalleştirmeli miyim? tüm öğrencilerden mi yoksa sadece mutlak deltaya mı bağlı? Aynı öğrenci vakasına bağlı kalmak, Kümülatif verilerim varsa (varsayalım ki her test için son notlarını topladım). Süreç aynı mı olmalı?

Buradaki soru gerçekten RF ile ilgili değil, algoritmadan bağımsız. Asıl soru ne yapmak istiyorsun? Neyi tahmin etmeye çalışıyorsunuz?

Günlük veya başka herhangi bir veri dönüşümü uygulamamız gerekiyor mu? Eğer öyleyse, ne zaman yapılmalı? Veri aralığı geniş olduğunda? Buradaki verilerin alanını değiştirmenin amacı nedir?

Aykırı değerler için endişelenmenize gerek olmadığı gibi aynı nedenlerle, RF kullanırken herhangi bir veri dönüşümü uygulamanıza gerek yoktur. Sınıflandırma için, bir sınıf dengesizliği sorununuz varsa bir tür yeniden örnekleme / tartma stratejisi uygulamanız gerekebilir, ama hepsi bu.

Kategorik bir hedefim varsa bunun yerine regresyon uygulayabilir miyim sınıflandırma böylece çıktı (sınıfların 0, 1, 2 olduğunu varsayalım) 0.132, 0.431; bu daha doğru olur mu?

Hedefiniz kategorik ise gerileme uygulayamazsınız.

Rastgele Orman ne tür problemlerde daha çok belirtilir? Büyük veri kümeleri mi?

RF, her tür problem için endikedir. İnsanlar (özellikle tıp alanında, genomik, vb.) Hatta onu öncelikle değişken önem ölçüleri için kullanıyor. Genetikte, adamların "küçük $ n $ - büyük $ p $" problemiyle karşı karşıya kaldığı durumlarda, RF de çok iyi sonuç veriyor. Her neyse, Makine Öğrenimi genel olarak yeterli miktarda eğitim ve test verisi gerektirir, ancak genel bir kural yoktur. Eğitim verileriniz tüm kavramlarınızı temsil ediyorsa ve bu kavramlar kolayca elde edilebiliyorsa, birkaç yüz gözlem yeterli olabilir. Bununla birlikte, öğrenilmesi gereken çok karmaşıksa ve bazı kavramlar yeterince temsil edilmiyorsa, daha fazla eğitim verisine ihtiyaç duyulacaktır.

Daha az önemli değişkenleri ayırmalı mıyım? Belki sadece gürültü yaratır?

CART aracılığıyla oluşturulan karar ağaçlarının bir başka güzel özelliği de, önemli olmayan değişkenleri otomatik olarak bir kenara koymalarıdır (her bölünmede yalnızca en iyi ayırıcılar seçilir). Hastie ve ark. (2009), yazarlar, 100 saf gürültü öngörücüsü ve 6 ilgili belirleyiciyle, ilgili değişkenlerin her bölünmede yine de% 50 oranında seçildiğini gösterdi. Yani RF'deki değişken seçimi konusunda gerçekten endişelenmenize gerek yok. Elbette, bazı değişkenlerin katkı sağlamadığını biliyorsanız, bunları dahil etmeyin, ancak üzerinde çalıştığınız sürecin altında yatan mekanizmalar çoğunlukla bilinmiyorsa, tüm aday tahminlerinizi dahil edebilirsiniz.

Danylo Zherebetskyy
2017-11-23 06:23:09 UTC
view on stackexchange narkive permalink

Teorik olarak, Breiman ve Cuttler tarafından genel olarak varsayıldığı ve tanımlandığı için Random Forest idealdir. Pratikte çok iyidir ama ideal olmaktan uzaktır. Bu nedenle, bu sorular çok geçerlidir.

  1. RF, genel olarak varsayıldığı kadar ideal olarak aykırı değerleri ele almıyor. Rastgele Ormanlar aykırı değerlere karşı nasıl duyarlı değildir? bölümünde gösterildiği gibi uç değerlere sahip tek bir aykırı değere bile duyarlıdırlar ve ayrıca heteroskedisitenin RF tahminlerini nasıl etkilediğiyle ilgili birkaç makale vardır. Gerçek hayat verilerinde, yazım hatalarından (32.00 yerine 3200 gibi insan tarafından girilen veriler için), indüksiyondan kaynaklanan elektrik akımı sıçramalarından veya sadece beklenmedik maruziyetlerden ( IoT için), farklı varyans, vb. Bu "aykırı değerler", karar ağaçlarının birçok yaprağında son bulur ve tahminleri daha yüksek değerlere çeker.

  2. Çok sayıda target_value = 0 olduğu dengesiz veriler söz konusu olduğunda, RF tahminleri önemli ölçüde küçümseme eğilimindedir.

  3. Günlük dönüşümleri, özellikle çok çarpık veriler (çok uzun kuyruklarla) durumunda doğruluğu artırabilir. Örneğin Jayant Malani ve ark. ( pdf) ve bu kaggle gönderimi.

  4. RF, daha geniş bir değer aralığına (hem kategorik hem de sürekli) sahip değişkenlere daha yüksek önem verme eğilimindedir. Örneğin, şu blog gönderisine bakın: Kategorik değişkenler rastgele ormanlarınızda mı kayboluyor?

Bu nedenle, Rastgele Orman durumunda bile veri ön işleme çok önemlidir.

Umarım bu yanıt, soruların geçerliliğini çerçeveler ve bağlantılar, başlangıç ​​noktaları ile bazı yanıtlar sağlar.

Tim
2015-09-17 06:09:13 UTC
view on stackexchange narkive permalink

Verileri önceden işlerken, genellikle aşağıdakileri başarmaya çalışıyorsunuz:

A. Verilerinizden hataların giderilmesi. Aykırı değerleriniz veri kayıt hatalarından kaynaklanıyorsa, örneğin, bunu ön işleme aşamasında düzeltmek isteyebilirsiniz. Aykırı değerleri belirlemeye yönelik çeşitli kurallar, daha fazla araştırma gerektiren ilk tahminler olarak ele alınmalıdır.

B. Yordayıcı değişkenlerin farklı değerlerinin sonuç değişkeni ile ilişkilendirilebileceğine dair makul bir beklentiye sahip olduğunuz değişkenler oluşturma. Bu, alana özgü bilgi gerektiren bittir ve iyi değişkenler genellikle oranlar, farklılıklar, değişkenlerin ortalamaları vb. Kullanılarak oluşturulur.

C. Uydurduğumuz modelin kısıtlayıcı varsayımlarından kaçınmak için verileri değiştirmek.

Rastgele ormanlar gibi ağaç temelli yöntemlerle ilgili harika olan şey, C tipi ön işlemede çok daha az çaba gerektirmeleridir. . Özellikle, normalleştirme, hata dışı olmayanları kaldırma, değişkenleri çıkarma ve günlük dönüşümleri genellikle gerekli değildir. Ancak, ağaç temelli yöntemlerin maliyeti, verilere aç olmalarıdır, bu nedenle daha küçük örneklerle (örneğin, 10.000'den az vaka), deneyimlerime göre, genellikle bir glm daha iyi bir iş çıkarır, ancak bu, türü getirir. C işleme, 25 yıllık model oluşturduktan sonra hala bir zorluk buluyorum.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...