본문 바로가기

딥러닝/머신러닝(ML)

[Bias 2/3] Biased Estimator, Unbiased Estimator란 무엇인가?


Biased Estimator and Unbiased Estimator

 

Bias [1]는 추정된 파라미터가 실제 파라미터와 다른 정도를 나타내는 스칼라 값입니다. 모델의 파라미터 $\theta$를 추정했을 때, Bias 의 값이 크다면, 추정된 파라미터가 실제 파라미터와는 상당이 멀리 떨어져있음을 나타냅니다. 그렇다면 Bias 값이 작은 경우가 실제 파라미터와 값이 비슷할 것이고 대체적으로 Bias값이 0인 경우가 좋습니다. [2]

 


Bias 가 낮은 게 좋을 수도 있고, 높은 게 좋을 수도 있다.

Bias 는 무조건 낮은 게 좋은 것 같은데, 컷을 때 좋은 점이 있다는 게 잘 믿기지 않습니다. 여기에 한 가지 연결고리가 필요합니다. Bias의 정의를 다시 살펴보겠습니다.

 

 

$$
E(\hat\theta) = \theta + bias(\theta)
$$

 

 

Bias 는 실제 파라미터와 추정된 파라미터의 평균과의 차이입니다. 평균과의 차이라는 것이 중요합니다. 예를 들어보겠습니다. 통계청이 발표한 20대 남성 평균 신장은 174.21 입니다 [3]. A지역에서 평균을 내보니 175이고 B지역에서는 173이였다면, 평균은 174로, Bias는 $0.21$입니다. 그런데 C와 D지역에서는 각각 176과 172였고 이 경우에도 평균은 174로, Bias는 $0.21$로 동일합니다. 결국 Bias 안에는 평균의 함정이 숨어있습니다. 파라미터를 추정했을 때, 추정된 파라미터끼리 차이가 클수도 있고 작을수도 있다는 것 입니다. 이는 Bias-Variance Trade-off와 연관되어 있는데 다음에 더 자세히 다뤄보겠습니다.

  어쨌든 Bias 가 작더라도, 추정된 파라미터끼리는 아주 큰 변화량을 지니고 있을 수 있습니다. 따라서 Bias가 낮을지라도 추정된 파라미터끼리 변화량이 크기 때문에, 좋지 않을 수 있습니다. 평균에 의해서 $+ - + -$ 가 상쇄되는 것으로 상상하면 좋습니다.

 

분명 Bias는 없는데 말입니다. 

 


Unbiased Estimator, Biased Estimator

  1. Unbiased Estimator $\text{bias} = 0$
  2. Biased Estimator: $\text{bias} \neq 0$

 

Unbiased Estimator 는 파라미터 추정 평균에 대해서 bias 값이 0인 경우를 말하고,

Biased Estimator 는 파라미터 추정 평균의 bias값이 0이 아닌 경우를 말합니다.

예를 들어서, Gaussian 분포에서 반복적으로 $x_1, x_2, \cdots , x_N$ 값들을 뽑아서, 첫 번째 원소로 Gaussian의 평균으로 추정하는 것은 Unbiased Estimator 입니다.

 


References

 

[1] What is bias? https://en.wikipedia.org/wiki/Bias_(statistics)

[2] 대체적이라는 말을 쓴 이유는 Bias값이 작은 경우가 좋지 않을수도 있기 때문입니다.

[3] 통계청 https://kostat.go.kr/ (2021.02.10 갱신)