본문 바로가기

데이터분석

Biased Estimation, Unbiased Estimation

Biased 

실수의 값의 $\theta$를 변수로 하는 통계적 모델이 있다고 가정했을 때,

주어진 데이터에 대한 probability distribution은 다음과 같이 나타낼 수 있습니다. 

여기서 세타는 고정된 상수값이지만 알려지진 않았습니다. 따라서 데이터를 가지고 세타를 추정하는 $\hat\theta$을 찾게됩니다. 추정을 하면서 발생하는 차이가 바로 bias 입니다. 

 

$Bais_\theta[\hat\theta] = E_{x|\theta}[\hat\theta] - \theta = E_{x|\theta}[\hat\theta - \theta]$

 

이 때, 만일 모든 값의 $\theta$에 대해서 bias 값이 0이라면 estimator가 unbiased 라고 합니다. 


Sample Mean: unbiased 샘플 평균의 기대값은 모집단의 평균과 같다. 

Sample Variance: biased 샘플 분산의 기대값은 모집단의 분산과 같지 않다. 

 

Sample의 분산을 구할 때, 편차의 합을 n으로 나눠줍니다. 그러나 이렇게 구한 샘플 분산은 biased 되어있습니다. 즉, 샘플 분산에 대한 평균$S^2$은 모집단의 분산$\sigma^2$과 일치하지 않습니다. 

 

$E[S^2] = (1- {1 \over n} )\sigma^2$ 값이 $\sigma^2$와 같지 않기 때문에 biased 입니다. 

여기서 만일 $n \over n-1 $을 곱해준다면 $\sigma^2$이 나오게 됩니다. 

따라서 처음에 $S^2$를 구할 때, $n$이 아닌 $n-1$로 나눠줬다면 이 때는 unbiased estimation 입니다. 

 

 

계산 과정은 생략하였습니다. 

https://en.wikipedia.org/wiki/Bias_of_an_estimator

 


Why Biased Estimation

 

실제 Biased 모델이 작은 bias를 가지고 더 많이 쓰입니다. 

 

1. unbiased estimator는 추가적인 가정 없이는 존재하지 않는다. 

2. unbiased estimator를 계산하는 것은 쉽지않다. (위의 sample vairance의 계산 과정처럼 유도하게 된다.)

3. biased estimator 중 shrinkage estimator로 overfitting을 방지할 수 있다. 

 

  • 부족한 점이 많습니다. 커맨트나 오류 수정은 언제나 환영입니다! 
  • 댓글에 추가적인 생각이나 아이디어를 공유해주시면 글에 추가하겠습니다.

'데이터분석' 카테고리의 다른 글

Feature Importance by Boruta  (0) 2020.08.23
다중공선성은 모델에 어떤 영향을 미치는가?  (0) 2020.08.12
Frequentist vs Bayesian  (0) 2020.08.03
Spark 기본 설명  (0) 2020.07.30
[Warehouse] Pandas Skills  (0) 2020.07.18