Biased
실수의 값의 $\theta$를 변수로 하는 통계적 모델이 있다고 가정했을 때,
주어진 데이터에 대한 probability distribution은 다음과 같이 나타낼 수 있습니다.
여기서 세타는 고정된 상수값이지만 알려지진 않았습니다. 따라서 데이터를 가지고 세타를 추정하는 $\hat\theta$을 찾게됩니다. 추정을 하면서 발생하는 차이가 바로 bias 입니다.
$Bais_\theta[\hat\theta] = E_{x|\theta}[\hat\theta] - \theta = E_{x|\theta}[\hat\theta - \theta]$
이 때, 만일 모든 값의 $\theta$에 대해서 bias 값이 0이라면 estimator가 unbiased 라고 합니다.
Sample Mean: unbiased 샘플 평균의 기대값은 모집단의 평균과 같다.
Sample Variance: biased 샘플 분산의 기대값은 모집단의 분산과 같지 않다.
Sample의 분산을 구할 때, 편차의 합을 n으로 나눠줍니다. 그러나 이렇게 구한 샘플 분산은 biased 되어있습니다. 즉, 샘플 분산에 대한 평균$S^2$은 모집단의 분산$\sigma^2$과 일치하지 않습니다.
$E[S^2] = (1- {1 \over n} )\sigma^2$ 값이 $\sigma^2$와 같지 않기 때문에 biased 입니다.
여기서 만일 $n \over n-1 $을 곱해준다면 $\sigma^2$이 나오게 됩니다.
따라서 처음에 $S^2$를 구할 때, $n$이 아닌 $n-1$로 나눠줬다면 이 때는 unbiased estimation 입니다.
계산 과정은 생략하였습니다.
Why Biased Estimation
실제 Biased 모델이 작은 bias를 가지고 더 많이 쓰입니다.
1. unbiased estimator는 추가적인 가정 없이는 존재하지 않는다.
2. unbiased estimator를 계산하는 것은 쉽지않다. (위의 sample vairance의 계산 과정처럼 유도하게 된다.)
3. biased estimator 중 shrinkage estimator로 overfitting을 방지할 수 있다.
- 부족한 점이 많습니다. 커맨트나 오류 수정은 언제나 환영입니다!
- 댓글에 추가적인 생각이나 아이디어를 공유해주시면 글에 추가하겠습니다.
'데이터분석' 카테고리의 다른 글
Feature Importance by Boruta (0) | 2020.08.23 |
---|---|
다중공선성은 모델에 어떤 영향을 미치는가? (0) | 2020.08.12 |
Frequentist vs Bayesian (0) | 2020.08.03 |
Spark 기본 설명 (0) | 2020.07.30 |
[Warehouse] Pandas Skills (0) | 2020.07.18 |