머신러닝 썸네일형 리스트형 [Machine Learning] 회귀모델의 평가지표 - MSE, MAE, RMSE, R2, OLS (최소자승법; Ordinary Least Squares) 회귀모델을 평가하는 평가지표들(evaluation metrics) MSE (Mean Squared Error) =np.mean(np.square((y_true - y_pred))) MAE (Mean absolute error) =np.mean(np.abs((y_true - y_pred))) RMSE (Root Mean Squared Error) =np.sqrt(MSE(y_true, y_pred)) R-squared (Coefficient of determination) = 참고 SSE(Sum of Squares Error, 관측치와 예측치 차이): SSR(Sum of Squares due to Regression, 예측치와 평균 차이): SST(Sum of Squares Total, 관측치와 평균 차이).. 더보기 [Machine Learning] 과적합(Overfitting) , 과소적합(Underfitting) - 분산편향 트레이드오프(Bias/Variance tradeoff) 일반화(generalization) 테스트데이터에서 만들어내는 오차를 일반화 오차라고 부른다. 훈련데이터에서와같이 테스트데이터에서도 좋은 성능을 내는 모델은 일반화가 잘 된 모델이라고 부릅니다. 모델이 너무 훈련데이터에 과하게 학습(과적합)을 하지 않도록 하는 많은 일반화 방법들이 있습니다. 예측모델이 훈련데이터에서보다 테스트데이터에서 오차가 적게 나오기를 기대하지만 현실적으로 모든 데이터를 얻을 수 없기 때문에 훈련데이터로부터 일반화가 잘 되는 모델을 학습시켜야 한다. 과적합(Overfitting) 과적합은 모델이 훈련데이터에만 특수한 성질을 과하게 학습해 일반화를 못해 결국 테스트데이터에서 오차가 커지는 현상 overfitting을 해결하는 방법 1. 특성(Feature)의 갯수를 줄여기 주요 특징을.. 더보기 [Machine Learning] 지도학습 - 다중선형회귀 vs 다항선형회귀 Multiple Linear Regression(다중선형회귀) Multiple Linear Regression(다중선형회귀)는 종속변수는 그대로 하나이지만 독립변수가 두 개 이상인 경우를 의미. 예를 들어, 아파트 집 값(종속변수)에 미치는 변수(독립변수)가 위치, 평수, 층수, 년식 등등 많은 경우이다. 다중선형회귀에서는 두개이상의 독립변수가 서로 연관관계에 있을때 결과가 제대로 나오지 않는 문제가 있다. (다중공선성) Multicolinearity (다중공선성) 두 개 이상의 독립변수가 서로 correlated 되었을 때 Multiple Linear Regression 결과가 정확하게 나오지 않는 것. 다중공선성 확인은 분산팽창지수 (Variation Inflation Factor ; VIF) 로 확.. 더보기 [Machine Learning] 지도학습 - 선형회귀(Linear Regression) 종속변수 y 와 한개 이상의 독립변수 X와의 선형 상관관계를 모델링 하는 회기분석(예측) 기법. 오류를 최소화 하거나 가능한 작게 만드는것 종속변수 y = Response 변수, Label, Target 독립변수 X = Predictor, Explanatory, feature (주로 Matrix라서 대문자 X) 선형회귀를 사용하는 목적 Data값 예측 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발한다. 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용할 수 있다. Data간의 관계 예측 종속 변수 y와 이것과 연관된 독립 변수 X1, ..., Xp가 존재하는 경우에, 선형 회귀 분석을 사용해 Xj와 y의 관계를 정량화할 수 있다. Xj는 y와 전혀 관계가 없을 수도 있고.. 더보기 [Machine Learning] 지도학습(Supervised Learning)/ 비지도학습(Unsupervised Learning)/ 강화학습(Reinforcement Learning) Machin Learning 1. 지도학습(Supervised Learning) - 라벨o 회기 (Prediction) 회기 알고리즘은 Continuous Data를 바탕으로 결과를 예측 분류 (Classification) 분류 알고리즘은 주어진 데이터의 Category / Class 예측 Train Data로부터 하나의 함수가 유추되고 나면 해당 함수에 대한 평가를 통해 파라미터를 최적화(fit)한다. 이러한 평가를 위해 교차 검증(Cross-Validation)이 이용되며 이를 위해 검증 집합(Validation Set) 을 다음의 3가지로 나눈다. 훈련 집합(A Training Set) 검증 집합(A Validation Set) 테스트 집합(A Test Set) 이러한 교차 검증(CV)을 통하여 훈.. 더보기 이전 1 2 다음