본문 바로가기

머신러닝

[Machine Learning] 지도학습 - 다중선형회귀 vs 다항선형회귀

Multiple Linear Regression(다중선형회귀)

Multiple Linear Regression(다중선형회귀)는 종속변수는 그대로 하나이지만 독립변수가 두 개 이상인 경우를 의미.

예를 들어, 아파트 집 값(종속변수)에 미치는 변수(독립변수)가 위치, 평수, 층수, 년식 등등 많은 경우이다.  다중선형회귀에서는 두개이상의 독립변수가 서로 연관관계에 있을때 결과가 제대로 나오지 않는 문제가 있다. (다중공선성)

 

Multicolinearity (다중공선성)

두 개 이상의 독립변수가 서로 correlated 되었을 때 Multiple Linear Regression 결과가 정확하게 나오지 않는 것.
다중공선성 확인은 분산팽창지수 (Variation Inflation Factor ; VIF) 로 확인 가능

예를 들어서 업무 성과에 미치는 여러 독립변수 들 중에 근무시간과 야근시간이 있다고 생각하자. 이 때 근무시간과 야근시간은 서로 상관관계가 있을 것(야근시간이 늘어나면 근무시간도 늘어날 것이므로)이기 때문에 이 둘을 동시에 독립변수로 잡고 Multiple Linear Regression을 하게되면 모델이 여러개가 나온다는 문제점이 있다. 책 평면(regression 모델)을 지지해야 하는데, 평면을 가로지르는 선  하나(두 변수가 correlated 되었으므로)로 지지하는 것이 얼마나 불안정한지를 생각해보면 이해하기 쉽다.

Polynomial Regression(다항회귀)

다항 특성은 특성들의 상호작용을 보여줄 수 있기 때문에 상호작용특성(interaction features)라고도 부른다.
Polynomial Regression은 model의 차수가 높아져서 선형이 아니라 곡선형의 model로 데이터를 설명.

하지만 극단적으로 너무 차수(degree)를 높여서 모든 데이터를 지나게 한다면 overfitting(과적합) 문제가 발생. 이 경우 Model이 우리가 학습시킨(주어진)데이터는 완벽히 설명할 수 있지만, 새로운 독립변수가 주어졌을 때에는 그에 따른 종속변수를 예측하기 힘들다.

 

따라서 다항회귀에서 overfitting을 방지하기 위해서는 적당한 정도의 차수를 정해야한다. 그 기준은 차수를 높일 때, 높이기 전 차수와 F ratio를 비교하여 p value가 0.05 이하일 경우(통계적으로 유의미한 경우) 일때만 차수를 높이는 것이다.

다항회귀그래프