Biased Estimator and Unbiased Estimator
Bias
[1]는 추정된 파라미터가 실제 파라미터와 다른 정도를 나타내는 스칼라 값입니다. 모델의 파라미터 $\theta$를 추정했을 때, Bias
의 값이 크다면, 추정된 파라미터가 실제 파라미터와는 상당이 멀리 떨어져있음을 나타냅니다. 그렇다면 Bias
값이 작은 경우가 실제 파라미터와 값이 비슷할 것이고 대체적으로 Bias값이 0인 경우가 좋습니다. [2]
Bias 가 낮은 게 좋을 수도 있고, 높은 게 좋을 수도 있다.
Bias
는 무조건 낮은 게 좋은 것 같은데, 컷을 때 좋은 점이 있다는 게 잘 믿기지 않습니다. 여기에 한 가지 연결고리가 필요합니다. Bias
의 정의를 다시 살펴보겠습니다.
$$
E(\hat\theta) = \theta + bias(\theta)
$$
Bias
는 실제 파라미터와 추정된 파라미터의 평균과의 차이입니다. 평균과의 차이라는 것이 중요합니다. 예를 들어보겠습니다. 통계청이 발표한 20대 남성 평균 신장은 174.21 입니다 [3]. A지역에서 평균을 내보니 175이고 B지역에서는 173이였다면, 평균은 174로, Bias는 $0.21$입니다. 그런데 C와 D지역에서는 각각 176과 172였고 이 경우에도 평균은 174로, Bias는 $0.21$로 동일합니다. 결국 Bias 안에는 평균의 함정이 숨어있습니다. 파라미터를 추정했을 때, 추정된 파라미터끼리 차이가 클수도 있고 작을수도 있다는 것 입니다. 이는 Bias-Variance Trade-off와 연관되어 있는데 다음에 더 자세히 다뤄보겠습니다.
어쨌든 Bias
가 작더라도, 추정된 파라미터끼리는 아주 큰 변화량을 지니고 있을 수 있습니다. 따라서 Bias가 낮을지라도 추정된 파라미터끼리 변화량이 크기 때문에, 좋지 않을 수 있습니다. 평균에 의해서 $+ - + -$ 가 상쇄되는 것으로 상상하면 좋습니다.
Unbiased Estimator, Biased Estimator
- Unbiased Estimator $\text{bias} = 0$
- Biased Estimator: $\text{bias} \neq 0$
Unbiased Estimator
는 파라미터 추정 평균에 대해서 bias 값이 0인 경우를 말하고,
Biased Estimator
는 파라미터 추정 평균의 bias값이 0이 아닌 경우를 말합니다.
예를 들어서, Gaussian 분포에서 반복적으로 $x_1, x_2, \cdots , x_N$ 값들을 뽑아서, 첫 번째 원소로 Gaussian의 평균으로 추정하는 것은 Unbiased Estimator
입니다.
References
[1] What is bias? https://en.wikipedia.org/wiki/Bias_(statistics)
[2] 대체적이라는 말을 쓴 이유는 Bias값이 작은 경우가 좋지 않을수도 있기 때문입니다.
[3] 통계청 https://kostat.go.kr/ (2021.02.10 갱신)
'딥러닝 > 머신러닝(ML)' 카테고리의 다른 글
Overfitting을 해결하는 방법 3가지 (0) | 2021.07.21 |
---|---|
Machine Learning에서 Overfitting과 Underfitting은 뭘까..? (0) | 2021.07.20 |
[Essay] Deep learning으로 조합 문제를 풀 수 있을까? - Neural Combinatorial Optimization (0) | 2021.07.15 |
[Bias 3/3] Bias-Variance Trade-off 란 무엇인가? (0) | 2021.06.24 |
[Bias 1/3] Machine Learning에서 Bias란 무엇인가? (0) | 2021.06.21 |