본문 바로가기

개념 이론 수학

[통계] 가설검정1 - Student T-test (ft. z-test)

Student T-test
목적: 두개의 집단이 통계적으로 같은지 다른지 비교하기 위해 사용
두집단의 평균값의 차이가 표준편차보다 현저히 작으면 이 차이는 우연히 밸생했다라고 결론, 반대로 두집단의 평균갓의 차이가 표준편차보다 현저히 크면 이 차이가 우연히 발생하지 않았다고 결론.

이 테스트를 개발한 사람의 필명이 Student 마지막 철자 T를 따서 T-test

모집단의 표준편차가 알려지지 않았을때 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정방법 

  • Z-test = 모집단의 정규분포
    z transformation = 정규분포를 표준정규분포로 바꾸는 것 =표준화
    z-score = (X-μ) / σ --> 관심있는 값-평균 / 표준편차 ==> 이후 값을 표준정규분포표에서 면적을 찾고 - 0.5 또는 1 해주면됨. // 단위로부터 자유로움 --> 이 값은 통계 확률값임.

 

T-test = 표본샘플의 정규분포

최대 2개의 샘플사용, 3개 이상은 ANOVA 분산분석을 이용한다. 
선제되어야 하는 가정 3가지
1. 독립성
:두 그룹이 연결되어 있는 (paired) 쌍인지
2. 정규성 
:데이터가 정규성을 나타는지
3. 등분산성
:두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지

1. One Sample t-test : 1개의 sample값들의 평균이 특정값과 동일한지 비교.

  1. t-value가 0이면 우연 0이 아니면 통계적으로 유의미하다. 즉, 두집단의 평균값인(편)차의 차이가 의미없는 편차인 표준편차 만도 못하다면 이 차이는 우연히 발생했다고 본다. 
  2.   
    df(degree of freedom) = 자유도 = n-1
     
  3. One side test(단측검정) vs Two side test(양측검정) :  Ha(대립가설)의 차이에서 발생. '0'(μ)를 기준으로 95%안에 p-value가 들어오면 두 평균값의 차이인 Da-b는 우연히 발생한 것이므로 두집단의 평균값은 통계적으로 같은것. 
    - One side test(단측검정) : 샘플 데이터의 평균이 "X"보다 크다 혹은 작다 / 크지 않다 작지 않다. 를 검정하는 내용 단측은 '0'(μ)보다 크면 우측검정, 작으면 좌측검정으로 나뉨
    좌측검정: '0'보다 작다 한쪽 꼬리의 면적이 5%만큼 크거나 작아야 한다. 

    - Two side (tail / direction) test(양측검정)  : 샘플 데이터의 평균이 "X"와 같다 / 같지 않다. 를 검정하는 내용

신뢰구간 95%는 우연으로 발생된 확률이고, 양측 (tail/direction)의 5%는 유의미한 통계적 확률의 부분임.

 

2. Two Sample t-test : 2개의 sample값들의 평균이 서로 동일 한지 비교

1) H0(귀무가설) : 두 확률은 같다 (차이가 없다).

2) Ha(대안가설) : 같지 않다

이처럼 t-value값이 유의한지 아닌지를 판단하는 가설검정을 통해서 가지고 있는 데이터가 왜 유의미한지 (유의미하지않은지) 고민하고 데이터를 체크해 봐야한다. 

 

Python 활용