data leakage 썸네일형 리스트형 [Machine Learning] Data Leakage (데이터누수), confusion matrix, classification report 데이터에 대해 완전히 이해하지 못할 때, 모델을 만들고 평가를 진행했는데 예측100% 가깝게 하는 경우->정보의 누수 의심. 여러 특성을 다루다 보면 데이터를 제대로 파악하지 못하고 아래와 같은 경우가 발생한다. 타겟변수 외에 예측 시점에 사용할 수 없는 데이터가 포함되어 학습이 이루어 질 경우 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우 Feature수가 너무 많은경우 Target과 동일한 Feature가 있을경우 정보의 누수가 일어나 과적합을 일으키고 실제 테스트 데이터에서 성능이 급격하게 떨어지는 결과를 확인할 수 있다. 문제에 적합한 평가지표를 선택해야 한다. 여러분이 만든 예측모델을 어떻게 평가해야 할까요? 그것은 문제의 상황에 따라 다를것 입니다. 특히 분류 & 회귀 모델의 평가지표는.. 더보기 이전 1 다음