Processing math: 100%
본문 바로가기

데이터분석

Biased Estimation, Unbiased Estimation

Biased 

실수의 값의 θ를 변수로 하는 통계적 모델이 있다고 가정했을 때,

주어진 데이터에 대한 probability distribution은 다음과 같이 나타낼 수 있습니다. 

여기서 세타는 고정된 상수값이지만 알려지진 않았습니다. 따라서 데이터를 가지고 세타를 추정하는 ˆθ을 찾게됩니다. 추정을 하면서 발생하는 차이가 바로 bias 입니다. 

 

Baisθ[ˆθ]=Ex|θ[ˆθ]θ=Ex|θ[ˆθθ]

 

이 때, 만일 모든 값의 θ에 대해서 bias 값이 0이라면 estimator가 unbiased 라고 합니다. 


Sample Mean: unbiased 샘플 평균의 기대값은 모집단의 평균과 같다. 

Sample Variance: biased 샘플 분산의 기대값은 모집단의 분산과 같지 않다. 

 

Sample의 분산을 구할 때, 편차의 합을 n으로 나눠줍니다. 그러나 이렇게 구한 샘플 분산은 biased 되어있습니다. 즉, 샘플 분산에 대한 평균S2은 모집단의 분산σ2과 일치하지 않습니다. 

 

E[S2]=(11n)σ2 값이 σ2와 같지 않기 때문에 biased 입니다. 

여기서 만일 nn1을 곱해준다면 σ2이 나오게 됩니다. 

따라서 처음에 S2를 구할 때, n이 아닌 n1로 나눠줬다면 이 때는 unbiased estimation 입니다. 

 

 

계산 과정은 생략하였습니다. 

https://en.wikipedia.org/wiki/Bias_of_an_estimator

 


Why Biased Estimation

 

실제 Biased 모델이 작은 bias를 가지고 더 많이 쓰입니다. 

 

1. unbiased estimator는 추가적인 가정 없이는 존재하지 않는다. 

2. unbiased estimator를 계산하는 것은 쉽지않다. (위의 sample vairance의 계산 과정처럼 유도하게 된다.)

3. biased estimator 중 shrinkage estimator로 overfitting을 방지할 수 있다. 

 

  • 부족한 점이 많습니다. 커맨트나 오류 수정은 언제나 환영입니다! 
  • 댓글에 추가적인 생각이나 아이디어를 공유해주시면 글에 추가하겠습니다.

'데이터분석' 카테고리의 다른 글