본문 바로가기

혼공학습단 7기 - ML&DL

[혼공단7기] 혼공머신 4주차 미션

기본미션

4주차

Chapter 05 교차 검증을 그림으로 설명하기

교차검증 (Cross-Valisation) : 검증세트를 떼어 내어 평가하는 과정을 여러번 반복하여 이 점수를 평균하고 최종 검증 점수를 얻는다. 이는 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용 할 수 있다. 

1. Hold-out Cross-validation(CV)
2. k-fold Ccross-validation(CV)

 

1. Hold-out Cross-validation

데이터를 훈련/검증/테스트 세트로 나누어 학습을 진행.

 

2. k-fold cross-validation

교차검증을 하기 위해서 데이터를 k개로 등분, k개의 집합에서 k-1 개의 부분집합을 훈련에 사용하고 나머지 부분집합을 테스트 데이터로 검증하는 방법

예를들어, 데이터를 3등분으로 나누고 검증(1/3)과 훈련세트(2/3)를 총 세번 바꾸어가며 검증하는 것은 3-fold CV. 10-fold CV의 경우 검증을 총 10번하는것.

 

단점:

훈련세트의 크기가 모델학습에 충분하지 않을 경우 문제 => 학습할 데이터가 많으면 okay

Validation set(검증세트) 크기가 충분히 크지 않다면 예측 성능에 대한 추정이 부정확.

 



  • 데이터가 독립적이고 동일한 분포를 가진 경우
    KFold, RepeatedKFold, LeaveOneOut(LOO), LeavePOutLeaveOneOut(LPO)
  • 동일한 분포가 아닌 경우
    StratifiedKFold, RepeatedStratifiedKFold, StratifiedShuffleSplit
  • 그룹화된 데이터의 경우
    GroupKFold, LeaveOneGroupOut, LeavePGroupsOut, GroupShuffleSplit
  • 시계열 데이터의 경우
    TimeSeriesSplit

 

선택미션

Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인증샷