Rastgele Ormanlar ile tahmin yaparken, çok sık (veya her zaman) bazı ön işlemler gerçekleştirmemiz gerekir. Bilgisayarla ilgili bir geçmişim olduğundan ve istatistiklerden bildiğim hemen hemen her şey kendi kendine öğrenmeden geldiğinden, bu süreç daha fazla sezgi ve daha az teori haline geliyor.
Örneğin, takıldığım şeylerden bazıları uğraşmak
- Aykırı Değerler. Hepsini kaldırmalı mıyız? Öyleyse, 3/2 kuralına dayalı bir aykırı değer düşünüyoruz. Onları saklamalı mıyız? Neden?
- Gözlem deltalarıyla uğraşırken (örnek olarak, bir öğrenci notunu diğerinden çıkardığımı varsayalım), tüm öğrencilerin deltasını normalleştirmeli miyim yoksa sadece mutlak deltaya bağlı kalmalı mıyım?
- Aynı öğrenci vakasına bağlı kalmak, Kümülatif verilerim varsa (varsayalım ki her test için son notlarını topladım). İşlem aynı mı olmalı?
-
log
veya başka herhangi bir veri dönüşümü uygulamamız gerekiyor mu? Eğer öyleyse, ne zaman yapılmalı? Veri aralığı geniş olduğunda? Buradaki verinin alanını değiştirmenin amacı nedir? - Kategorik bir hedefim varsa, sınıflandırma yerine regresyon uygulayabilir miyim, böylece çıktı şöyle olur (sınıfların 0, 1, 2 olduğunu varsayalım) 0.132 , 0.431. Daha doğru olur muydu?
- Rastgele Orman ne tür problemlerde daha çok belirtilir? Büyük veri kümeleri mi?
- Daha az önemli değişkenleri atmalı mıyım? Belki sadece gürültü yaratır?
Ön işlemenin soruna, verilere vb. Bağlı olduğunu biliyorum ve ön işlem sırasında aranacak daha çok şey olduğunu biliyorum. Burada, verilerin önceden işlenmesinin arkasındaki kavramları ve bunu yaparken aranacak kilit noktaları daha fazla anlamaya çalışıyorum. Öyleyse, bunu akılda tutarak, verileri ön işlerken bakılması gereken temel noktalar nelerdir? (Başka önemli bir noktadan bahsetmediysem ve eminim çok şey eksik, lütfen bunu da düşünün). Bunu büyükbabana öğrettiğini hayal et :)