다중공선성 (Multicolinearity)
데이터를 다루다 보면 특징에 대해서 서로 관계성이 있는 경우가 많이 있습니다.
회귀분석의 4가지 가정(선형, 독립, 등분산, 정규) 중에서 Feature들 간에 독립성을 만족시켜야 하는데,
실제 데이터는 그렇지 못한 경우가 많습니다.
머신러닝 모델을 만들면서 이러한 다중공선성이 모델에 어떤 영향을 미치는지 파악하는 것은 특징(Feature)를 전처리하고 다루는데 중요하기에 포스트에서 이에 대해서 다루고자 합니다.
Def. 다중공선성
통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
Def. 완전공선성
독립변수들간에 정확한 선형관계가 존재하는 현상
이러한 공선성은 회귀분석의 가정을 위반하기 떄문에, 회귀분석을 위해서는 다중공선성이 있는 변수에 대해서 처리를 해줘야 합니다.
이를 즉각적으로 해소하는 방법은 다음과 같습니다.
1. 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거
- 특징이 사라지기 때문에 바로 적용하고 싶은 방법은 아닙니다.
2. PCA를 이용하여 차원을 축소한다.
- 데이터의 차원을 줄임으로써 특징간의 공선성이 사라질 수 있습니다.
모델에 대한 영향력
모델은 주어진 데이터에 대해서 다양한 방법으로 예측하고자 하는 값으로 훈련을 진행합니다. 이에 어떠한 데이터가 있던지 이를 활용하여 최대한 예측값으로 맞추게 됩니다. 공선성이 높은 데이터가 있을지라도 모델이 예측하고자 하는데는 영향을 미치지 않습니다.
예를 들어 Decision Tree Classifier의 경우, 주어진 데이터에 대한 특징에 대해서 엔트로피 지수를 이용하여 데이터를 두 군으로 분류합니다. 두 개의 군에는 특징으로 분류된 데이터가 있게 됩니다. 그리고 각각에 대해서 다중공선성이 있는 특징으로 다시 분류를 한다면, 이미 사용된 특징을 다시 재사용하는 것이 됩니다. 따라서 중복된 특징을 두 번 사용하는 것과 비슷합니다. 예를 들어 남자 특징, 여자 특징이 있다고 했을 때, 남자특징으로 분류를 진행한다면 굳이 여자특징으로 분류를 할 필요가 없는 것과 마찬가지 입니다.
이러한 모델이 다중공선성이 높은 특징을 다루는데서 문제점이 나타납니다.
먼저 분류를 진행한 특징에 대해서는 학습이 이루어지지만, 두 번째 특징에 대해서는 학습이 이루어지지 않습니다.
아래 실험은 이러한 현상을 확인시켜줍니다.
PTS / MP 두 개의 특징은 다중공선성이 있는 특징으로 RandomForest로 학습을 진행했을 때,
PTS는 중요한 특징으로 뽑은 반면, MP는 중요도가 굉장히 낮습니다.
여기서 만일 PTS 특징을 제거하고 훈련을 진행한다면, 다중공선성이 있었던 MP의 특징을 가장 중요하게 여기는 것을 확인할 수 있습니다.
따라서 결정적인 변수를 선택하고자 한다면 다중공선성이 높은 변수를 택하는 것은 그 중요성을 제대로 나타내지 못합니다. 이러한 공선성과 별개로 모델은 항상 예측을 위해서 훈련됨으로 공선성을 지닌 특징이 있다고 해서 정확도가 떨어지지는 않습니다.
'데이터분석' 카테고리의 다른 글
[Warehouse] PLT Plot 정리 (0) | 2020.09.01 |
---|---|
Feature Importance by Boruta (0) | 2020.08.23 |
Biased Estimation, Unbiased Estimation (0) | 2020.08.04 |
Frequentist vs Bayesian (0) | 2020.08.03 |
Spark 기본 설명 (0) | 2020.07.30 |