Her zaman lojistik regresyonu, doğrusal bir modele ikili bir karar uygularsanız ne olacağı olarak düşünmeyi severim. Yani, doğrusal modeli izleyen bazı temel ilişkiler olduğunu varsayalım:
$$
y = X \ beta + \ varepsilon
$$
burada $ X $ bağımsız değişkeniniz ve bu değişkendeki $ \ beta $ katsayısı (veya eğim) ve $ \ varepsilon $ rastgele parazittir. Ve sonra, $ y $ sürekli değişkenine, onu ikili bir sonuca eşleyen bir fonksiyon uyguladığımızı varsayalım:
$$
f (y) = \ sol \ {\ başlar {matris} 0, ~ \ operatöradı {if} ~ y \ operatöradı {\ leqslant \ theta}
\\ 1, ~ \ operatorname {if} ~ y \ operatorname {> \ theta}
\ end {matris} \ sağ.
$$
$ \ theta $ bir eşiktir. Belirli bir X $ değeri verildiğinde, bu işlevin $ 1 $ döndürme olasılığı nedir? $ \ Varepsilon $ 'ın Normalde ortalama $ 0 $ ve varyans $ \ sigma ^ 2 $ ile dağıtıldığını varsayarsak, bu olasılığı şu şekilde hesaplayabiliriz:
$$
p (f (y) = 1 | X) = p (y> \ theta | X) = \ int_ \ theta ^ \ infty N \ left (y; X \ beta, \ sigma ^ 2 \ sağ) dy
$$
Başka bir deyişle, bu, eşiğin sağındaki Normal dağılımın altındaki alanı hesaplamaktır. Bu olasılığın, esasen lojistik regresyon modelinin tanımlamaya çalıştığı şey olduğuna dikkat edin. Ve gerçekten, bu olasılığı $ X $ 'ın bir fonksiyonu olarak çizerseniz, lojistik fonksiyona oldukça yakın bir şekil elde edersiniz (aslında lojistik fonksiyon genellikle kümülatif Normal dağılıma uygun bir yaklaşım olarak kullanılır).
Eşiğin yakınındaki $ X \ beta $ değerleri için, $ y $ 'ın eşiğin üzerinde olma olasılığı 0,5 $' a yakındır, çünkü $ \ varepsilon $ gürültüsü sonucu her iki şekilde de etkileyebilir. $ X $ 'ı artırdıkça, $ X \ beta $ $ \ theta $' dan uzaklaşacak ve $ f (y) = 1 $ daha olası hale gelecektir. Önemli olan, $ p (f (y) = 1 | X) $ değerinin $ X $ ile ne kadar hızlı artacağına iki şeye bağlıdır: $ \ beta $ eğimi ve $ \ sigma ^ 2 $ gürültü değişimi. Daha doğrusu, $ \ frac {\ beta} {\ sigma} $ oranına bağlıdır. Lojistik regresyondan elde ettiğiniz (beklenen) katsayıyı belirleyen bu (sinyal-gürültü) oranıdır. Başka bir deyişle, bir lojistik regresyondaki katsayıları, belirli bir sonucun olasılığını bir miktar artırmak için verilerdeki gürültüye göre her bir bağımsız değişkenin ne kadar değişmesi gerektiğini kontrol eden bir lojistik regresyon olarak düşünebilirsiniz. miktar.
Şimdi sorunuza gelelim: Tüm rastlantısallığı ortadan kaldırmanın, yani gürültü yapmanın mümkün olup olmadığını soruyorsunuz. Bu, $ \ sigma $ 'nın $ 0 $' a eşit olduğu ve dolayısıyla $ \ frac {\ beta} {\ sigma} $ 'nın tanımsız (veya "sonsuz") olacağı anlamına gelir. Bu, gürültü olmadığında katsayıları tahmin edemeyeceğinizi bulduğunuz şeyi açıklar. Aslında, gürültüsüz elde ettiğiniz mükemmel ayrımı, bağımsız değişkeniniz üzerindeki sonsuz bir katsayıya karşılık gelecek şekilde düşünebilirsiniz, çünkü ($ X \ beta $ eşiğinin $ \ theta $ yakınında) yalnızca $ X $ 'ı sonsuz küçük bir değere değiştirmeniz gerekir. $ p (y> \ theta | X) = 0 $ 'dan $ p'ye (y> \ theta | X) = 1 $' a kadar gitmek için miktar.
Düzenleme: Aslında yapabileceğiniz bir şey, verilerinizi simüle etmek için iki terimli bir dağılımdan örnekler almak yerine, bu örnekleri beklentileriyle, yani simüle edilmiş lojistik işlev tarafından tahmin edilen olasılıkla değiştirin.Bu şekilde, sınırlı bir numuneyi simüle etmekten (yani örnekleme değişkenliği) kaynaklanan rastgeleliği ortadan kaldırmış olursunuz ve bu nedenle katsayı tahminleriniz temel gerçeğe eşit olmalıdır (çünkü bu değerlere tam olarak uyan bir lojistik fonksiyon vardır).