Think Bayesian approach ๐จ๐พ
ํ๋ฅ ๋ก ์์ Frequentist์ Bayesian์ ๋นผ๋์ ์ ์๋ ๋ ผ์ ์ค ํ๋์ ๋๋ค. ๋ ๊ฐ์ ์ ๊ทผ๋ฒ์ ๊ทผ๊ฐ์ด ๋๋ ๊ฐ์ ์ด ์๋ก ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ๋ํ ์๋ก ๋ค๋ฅธ ๊ฒฌํด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ๋ํ ์ด์ผ๊ธฐ๋ก ์์ํด๋ณด๊ฒ ์ต๋๋ค. ๋ก๋๋ฅผ ๊ตฌ๋งคํ์ ๋, ์ฐ๋ฆฌ๋ ๋น์ฒจ์ด ๋ ํ๋ฅ ์ด ๊ต์ฅ์ด ๋ฎ๋ค๋ ๊ฒ์ ์๊ณ ์๊ณ , ์ค์ ๋ก ๊ทธ ํ๋ฅ ์ ์์น์์ผ๋ก ํํํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์์น๋ฅผ ์๋ค๊ณ ํด์ ๋ด๊ฐ ๋ก๋์ ๋น์ฒจ๋ ์ ์๋ ๊ฒ์ ์๋๋๋ค. ์ด๋ฌํ ๋ถํ์คํ ํ์๊ณผ ๋๋ค์ ์ฑ์ง์ด Frequentist์ Bayesian์ ๋๋๋ ๊ทผ๊ฐ์ด ๋ฉ๋๋ค.
2์์ ๋ท์งธ ์ฃผ ํ ์์ผ์ ๋ก๋ ๋ฒํธ $X$ ๊ฐ ๋์์ต๋๋ค. $X$๋ ์ด๋ ํ ๋ชจ๋ธ $\theta$์ ์ํด์ ์์ฑ๋ ๊ฒ์ ๋๋ค. ์ฆ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด ์์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์์์ ์ค๋ช ํ ํ์์ $X$์ $\theta$ ์ค์ ์ด๋ค ๊ณณ์์ ๋ฐ์๋ ๊ฒ์ผ๊น์? ๋ฐ์ดํฐ ์์ฒด์ Randomํ ์ฑ์ง์ด ์๋์ง ์๋๋ฉด ๋ชจ๋ธ์ ์๋์ง ํ์ ํ ์๋ ์์ง๋ง, ์ด์ ๋ํด์ ์ด์ผ๊ธฐํด๋ณผ ์๋ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
๐ Bayesian vs Frequentist
View point
Frequentist๋ ์ผ์ด๋ ํ์์ ๋ํด์ ์๊ฐ์ ํ๋ ๋ฐ๋ฉด์ Baysian์ ๊ทธ ํ์์ ์ ๋ฐํ๋ ๋ฌด์ธ๊ฐ์ ๋ํ ์กฐ๊ฑด์ ์ด์ผ๊ธฐํฉ๋๋ค.
- | Frequentist | Bayesian |
---|---|---|
View point | Objective | Subjective |
Data and parameters | $X$ is random and $\theta$ is fixed | $\theta$ is random and $X$ is fixed |
Size | $|X|>>|\theta|$ | For any $|X|$ |
Training | Maximum Likelihood : $\hat{\theta} = argmax_\theta{P(X|\theta)}$ | Bayes Theorem $\frac{P(X|\theta)P(\theta)}{P(X)}$ |
๐ Classification of Bayesian
Training
Bayesian์ ํ๋ จ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด์ ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ๋ฅผ ํ๋ จ์ํค๋ ๊ฒ ์ ๋๋ค. ์ด๋ก ์ธํด์, ๋ฐ์ดํฐ์ ๋ํด์ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ์ง๋๊ฒ ๋๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ ์ ์์ต๋๋ค.
$P(\theta|X_{tr}, y_{tr}) = \frac{P(y_{tr} | X_{tr}, \theta)P(\theta)}{P(y_{tr}|X_{tr})}$
Prediction
์๋ง์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, Prediction์ ๋ชจ๋ $\theta$์ ๋ํด์ ํ๋ฅ ์ Integralํ๋ ๋ฐฉ์์ผ๋ก ์งํ๋ฉ๋๋ค.
$P(y_{tr}|X_{ts}, X_{tr}, y_{tr} ) = \int P(y_{ts}|X_{ts},\theta)P(\theta|X_{tr},y_{tr})d\theta$
on-line Learning
Bayesian์ ์ฅ์ ์ค ํ๋๋ On-line Learning์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ ์ ๋๋ค. On-line learning์ ํ์ฌ ํ์ต๋ ์ํ์์ ์ถ๊ฐ๋ก ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ ํ๋ ๋ฐฉ์์ ๋๋ค. $x_k$๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋, Bayes Theorem์ ์ด์ฉํด์ ๊ธฐ์กด์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ $P_k(\theta)$๋ฅผ Prior๋ก ์ค์ ํ๋ ๋ฐฉ์์ ๋๋ค.
$P_k(\theta) = P(\theta|x_k) = \frac{P(x_k|\theta)P_{k-1}(\theta)}{P(x_k)}$
Classification of Frequentist
Frequentist๋ ์ฐธ์ธ ๋ชจ๋ธ์ด ์กด์ฌํ๋ฏ๋ก, ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค.
๐ Bayesian Network
Bayesian์์ ์ค์ํ ์์๋ ํ์ฌ ์ํ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด์, Prior๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ ์ ๋๋ค. ๋์ ์ ํ๋ฅ ์ ๊ตฌํ๊ธฐ ์ํด์, ๋ฌด์ํ ๋ฐ๋ณตํ๋ ๊ฒ์ด ์๋, ์ฐ๋ฆฌ๊ฐ ๊ฐ์ ํ๋ ๋์ ์ ํ๋ฅ ์ด Prior๋ก ์์ฉํ๊ณ , ์ด๋ฅผ ํ ๋๋ก Likelihood๋ฅผ ๊ณ์ฐํ๋ค๋ฉด, ์ต์ข ์ ์ผ๋ก ๋ชจ๋ธ์ ๋ํ ํ๋ฅ ์ธ Posterior๊ฐ ๊ตฌํด์ง๋๋ค. ์ด๋ฌํ ๊ด๊ณ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด์ Bayesian Network์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
Nodes : Random variables
Edges : direct impact
$P(X_1, \cdots , X_n) = \prod_{k=1}^{n}P(X_k|Pa(X_k))$
Here $Pa(B)={C}$ and $P(A,B,C) = P(C)P(A|C)P(B|A,C)$
์ฌ๊ธฐ์ Parent(Pa)๊ฐ ์ฐ๋ฆฌ๊ฐ ๊ธฐ์กด์ ๊ฐ์ง๊ณ ์๋ ๋ฏฟ์ Prior๊ฐ ๋ฉ๋๋ค. ์ด๋ฌํ ๋ฏฟ์ ๋๋ฌธ์, ์ํด์ Bayesian์ View point๋ฅผ Subject๋ผ๊ณ ์ด์ผ๊ธฐ ํ์ต๋๋ค.
Naive Bayes Classifier
Bayesian๊ณผ Classification๋ชจ๋ธ์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ณด๊ฒ ์ต๋๋ค.
Assume that there is a class c
and $f_i, i=1,\cdots n$ be infered by c
.
Class์ธ C์ ๋ํด์ ๊ฐ๊ฐ์ ํน์ฑ(Feature)์ ๋ํ ์ ํธ๋ ํน์ ํ๋ฅ ์ ์๊ฐํ ์ ์์ต๋๋ค. ํ์ดํ๋์ ์๋ก ๋ค์ด๋ณด์๋ฉด, ์์กดํ ์ฌ๋(C)๊ณผ ์ฑ๋ณ ํน์ฑ(Feature)์ ๋ํ์ฌ C=์์กด ์ด๋ผ๋ฉด, ์ฌ์ฑ์ผ ํ๋ฅ ์ด ๋จ์ฑ์ผ ํ๋ฅ ๋ณด๋ค ๋์ต๋๋ค.
(์ด๋ ํ์ดํ๋ EDA๋ฅผ ํตํด์ ํ์ธ ํ ์ ์์ต๋๋ค.)
$P(c, f_1, \cdots f_N) = P(c)\prod_{i=1}^{N}P(f_i|c)$
๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋ ๊ฐ์ ๊ฒฝ์ฐ ๋ณดํต, ํ๋ผ๋ฏธํฐ์ ์๊ฐ ๋ฌด์ฒ์ด๋ ๋ง์ด ๋๋ฌธ์ ์ด๋ฌํ ํํ๋ ์๋์ ๊ฐ์ด ์ถ์ฝํด์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๐ Linear Regression
[์ค๋ช ์ถ๊ฐ ์์ ]
Univariate normal
$\mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{(2\pi\sigma^2)}}e^-\frac{(x-\mu)^2}{2\sigma^2}$
Multivariate normal
$\mathcal{N}(x|\mu, \sum) = \frac{1}{\sqrt{|(2\pi\sum)|}}exp[-\frac{1}{2}(x-\mu)^T\sum^{-1}(x-\mu)]$
Covariance Matrix and Number of parameters
Full : D(D+1)/2
Diagonal : D
Spherical : 1
Least squares problem
$$L(w) = \sum_{i=1}^N(w^Tx_i -y_i)^2 = ||w^TX -y ||^2 -> min$$
We can define the model like this
$$
P(w,y | X) = P(y|X,w)P(w) \
P(y|w, X) = \mathcal{N}(y|w^TX, \sigma^2\mathit{I}) \
P(w) = \mathcal{N}(w|0, \gamma^2 \mathit{I})
$$
$P(w|y,X)$ is what we have to maximize.
$$
P(w|y,X) = \frac{P(y,w|X)}{P(y|X)}
$$
Since $P(y|X)$ term is not dependent on $w$, we should maximize $P(y,w|X)$
Since log function is concave, we get
$$
P(w,y | X) = P(y|X,w)P(w) \\
\log{P(w,y | X)} = \log({P(y|X,w)P(w))} \\
\log{P(w,y | X)} = \log{P(y|X,w)}+\log{P(w)}
$$
$$
\begin{aligned}
\log{P(y|X,w)}+ \log{P(w)} &= \log{C_1 exp(-\frac{1}{2}(y-w^TX)(\sigma^2\mathit{I})^{-1}(y-w^TX))} \\
&+ \log{C_2 exp(-\frac{1}{2}w^T(\sigma^2\mathit{I})^{-1}w)} \\
&= -\frac{1}{2\sigma^2}(y-w^TX)^T(y-w^TW) - \frac{1}{2\gamma^2}w^Tw
\end{aligned}
$$
If we change the maximization problem to the minimization problem, we get the least squeare problem plus L2 regularization.
$$
||y-w^TX||^2 + \lambda||w||^2
$$
References
[1] Coursera www.coursera.org/learn/bayesian-methods-in-machine-learning/home/welcome