๐Ÿง ๋Œ€์ฒด ์‹œ๊ทธ๋ชจ์ด๋“œ(Sigmoid) ํ•จ์ˆ˜๊ฐ€ ๋ญ”๋ฐ?!

์‹œ๊ทธ๋ชจ์ด๋“œ(Sigmoid) ํ•จ์ˆ˜

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋Š” S์žํ˜• ๊ณก์„  ๋˜๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ณก์„ ์„ ๊ฐ–๋Š” ์ˆ˜ํ•™ ํ•จ์ˆ˜์ด๋‹ค. ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์˜ˆ์‹œ๋กœ๋Š” ์ฒซ ๋ฒˆ์งธ ๊ทธ๋ฆผ์— ํ‘œ์‹œ๋œ ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๊ฐ€ ์žˆ์œผ๋ฉฐ ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ์ •์˜๋œ๋‹ค.

{\displaystyle S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.}

์ถœ์ฒ˜: ์œ„ํ‚คํ”ผ๋””์•„

๐Ÿ’๐Ÿปโ€โ™€๏ธ ๋“ค์–ด๊ฐ€๋ฉฐ

ML/DL์„ ๊ณต๋ถ€ํ•˜๋‹ค ๋ณด๋ฉด Activation ํ•จ์ˆ˜๋กœ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์ž์ฃผ ๋งŽ๋‚˜๊ฒŒ ๋œ๋‹ค. ํ˜น์€ ํ†ต๊ณ„ํ•™์—์„œ๋„ Logistic ๋ถ„ํฌ, Normal ๋ถ„ํฌ, t-๋ถ„ํฌ์—์„œ๋„ ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ณก์„ ์ด ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค. ์–ด๋–ป๊ฒŒ ์ด๋Ÿฐ ํ•จ์ˆ˜๊ฐ€ ๋“ฑ์žฅํ–ˆ๋Š”์ง€ ์™œ ์‚ฌ์šฉํ•˜๋Š” ์ง€ ์‚ดํŽด ๋ณด๊ณ ์ž ๊ธ€์„ ์ž‘์„ฑํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.

๐Ÿ—ฃ ๋ถ„๋ฅ˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•๋ฅ˜๋กœ ์–˜๊ธฐ ํ•˜๊ธฐ

๊ธฐ์กด ํšŒ๊ท€ ๋ชจํ˜•์˜ ๋ฌธ์ œ์ ๋“ค

๐Ÿ‹๐Ÿปโ€โ™€๏ธ ์–ด๋–ค ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ 

Sigmoid ํ•จ์ˆ˜ ํ˜น์€ Logistic ํ•จ์ˆ˜๋ฅผ Odds ratio๋ฅผ ํ†ตํ•ด ๊ตฌํ•ด์ง€๊ฒŒ ๋œ๋‹ค.

์œ„์™€ ๊ฐ™์ด $ P(X)$ ๋ฅผ ์ •์˜ ํ•˜์ž. ๊ทธ๋Ÿฌ๋ฉด Odds Ratio๋กœ ๋‚˜ํƒ€ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

Odds Ratio

ํ•ด๋‹น ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ ๊ณผ ์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ ์˜ ๋น„์œจ

\[\frac{P(X)}{1-P(X)}= \frac{์ผ์–ด๋‚  ํ™•๋ฅ }{์ผ์–ด๋‚˜์ง€ ์•Š์„ ํ™•๋ฅ }\]

์œ„ ์ˆ˜์‹์„ ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚œ๋‹ค. ํ™•๋ฅ ์ด ๋†’์œผ๋ฉด ๋†’์„ ์ˆ˜ ๋ก Odds ๊ฐ’์ด ๋ฌดํ•œ์ด ์ฆ๊ฐ€ํ•˜๋Š” ๊ทธ๋ž˜ํ”„์˜ ๋ชจ์–‘์ด ๋‚˜ํƒ€๋‚œ๋‹ค.

image-20210413204647138

์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€๊ฒƒ์€ $X$ ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ํ™•๋ฅ ์„ ์•Œ๊ณ  ์‹ถ๋‹ค. ๋•Œ๋ฌธ์— $X$ ๊ฐ’๊ณผ $Y$ ๊ฐ’์„ ๋ฐ”๊ฟ”๋ณธ๋‹ค. ์ฆ‰, ์—ญํ•จ์ˆ˜๋ฅผ ๊ตฌํ•ด๋ณธ๋‹ค. ์ด๋•Œ, ์ด๊ฒƒ์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด Logit ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•œ๋‹ค.

Logit function

X๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ y์˜ ํ™•๋ฅ ์„ ์ด์šฉํ•œ Log odds๋ฅผ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

\[\begin{align} logit(p(y=1|x)) &= log_e(\frac{p}{1-p}) \\ &=log_e(p) - log_e(1-p)\\ &= -log_e(\frac{1}{p} - 1) \end{align}\]

์ด๋ ‡๊ฒŒ ์–ป์€ ๊ฐ’์„ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œ์‹œํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

image-20210413210016068

$ P(X)$ํ™•๋ฅ  ์ผ ๋•Œ์˜ Logit(P)์˜ ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ทธ๋ž˜ํ”„ ์ด๋‹ค. ํ•˜์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” $X$ ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ํ™•๋ฅ ์„ ์•Œ๊ณ  ์‹ถ๊ธฐ ๋•Œ๋ฌธ์— ์—ญํ•จ์ˆ˜๋ฅผ ๊ตฌํ•ด์•ผ ํ•œ๋‹ค.

Sigmoid(=Logistic) ํ•จ์ˆ˜

Logitโ€‹ ํ•จ์ˆ˜์˜ ์—ญํ•จ์ˆ˜๋กœ $ z$์— ๊ด€ํ•œ ํ™•๋ฅ ๋กœ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

\[\begin{align} f(z) =\, &y = -log_e(\frac{1}{z}-1) \: \text{์—ญํ•จ์ˆ˜ ๋ณ€ํ™˜} \\ &z = -log_e(\frac{1}{y}-1) \: \text{y ์— ๊ด€ํ•œ ์ •๋ฆฌ} \end{align}\]

์—ฌ๊ธฐ์„œ $z$๊ฐ’์€ ์œ„์—์„œ ์ด์•ผ๊ธฐ ํ–ˆ๋˜ $P(X)$ ํ™•๋ฅ ์„ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ์ด๊ณ , ์ฆ‰ ์ด์ œ ์•ž์œผ๋กœ ๊ตฌํ•˜๊ฒŒ ๋˜๋Š” ์–ด๋–ค ๊ฐ’์œผ ๋งํ•œ๋‹ค. ์ด๊ฒƒ์„ ๋‹ค์‹œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณ€ํ™˜ํ•˜๋ฉด Logistic ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

\[\begin{align} &z = -log_e(\frac{1}{y}-1)\\ &e^{-z} = \frac{1-y}{y}\\ &y*e^{-z} + y = 1\\ &y(e^{-z} + 1) = 1\\ &y = \frac{1}{1+e^{-z}} \end{align}\]

์ด๋ ‡๊ฒŒ ์–ป์–ด์ง„ ํ•จ์ˆ˜๋ฅผ Logistic ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๊ณ . ๋ชจ์–‘์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด Sํ˜•ํƒœ๋กœ ๋‹ฎ์•˜๋‹ค๊ณ  ํ•˜์—ฌ Sigmoid ํ•จ์ˆ˜๋ผ๊ณ  ํ˜ธ์นญํ•œ๋‹ค. ์ด ํ•จ์ˆ˜์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํŠน์ง•์€ ์—ฐ์†๊ตฌ๊ฐ„์—์„œ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋ฅผ ๋ˆ๋‹ค๋Š” ์ ์ด๋‹ค.

image-20210413212222497

์„ ํ˜• ํ•จ์ˆ˜์—์„œ Sigmoid ํ•จ์ˆ˜๋กœ ๋ณ€ํ™˜

๋‹ค์Œ๊ณผ ๊ฐ™์ด Logit ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•ด์„œ ๊ธฐ์กด์— ํšŒ๊ท€์‹์œผ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์—†์—ˆ๋˜ ํ™•๋ฅ ์„ ํ†ตํ•ด Cost ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. $w_0x_0 + w_1x_1 + โ€ฆ + w_nx_n$ ๊ฐ’์„ ๊ตฌํ•˜๊ฒŒ ๋˜๋ฉด $z$ ๊ฐ’์„ ์•Œ๊ฒŒ ๋˜๊ณ  $z$์„ ๊ฐ’์„ ์•Œ๊ฒŒ๋˜๋ฉด ํ™•๋ฅ  $P$์˜ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

\[\begin{align} &p = \sigma(z) = \frac{1}{1+e^{-z}},\: \frac{p}{1-p} = \frac{\frac{1}{1+e^{-z}}}{\frac{e^{-z}}{1+e^{-z}}} = \frac{1}{e^{-z}} = e^{z} \\ &log_e\frac{p}{1-p} = z \\ &log_e\frac{p}{1-o} = z = w_0x_0 + w_1x_1 + ... + w_nx_n \end{align}\]