본문 바로가기

개념 이론 수학

[통계] 기술 통계치(Descriptive Statistics) / 추리 통계치(Inferetial Statistics)

기술 통계치(Descriptive Statistics)

수집한 데이터를 요약, 묘사, 설명하는 통계 기법
  1. 데이터의 집중화 경향 값 (Central tendecy) : 대표값
    1. mean(평균) : (정략적 자료의 대표값) 이상치의 영향을 많이 받음
      - 산술 평균(Arithmetic mean): 데이터 n 개를 모두 더해서 n개로 나눈값
      - 기하평균(geometirc mean),
      - 조화평균 (Harmonic mean)
      - 가중평균 (Weighted mean

    2. median(중앙값) : (순위자료의 대표값)
    3. mode(최빈값) : 명목자료의 대표값
    4. min 
    5. max
    6. count
  2. 데이터의 분산도 값 (Variation)
    1. range (범위) : 자료의 최대값과 최소값의 차이 (max-min)
    2. Variance (분산) : 편차의 제곱을 모두 더해 평균낸 값
      - 편차 = '개별자료값' - ' 전체자료평균' / 즉, 관측치와 전체 자료 편균간 차이
    3. std (standard deviation) (표준편차) : 분산에 제곱근을 취한 값
    4. quartile (사분위)
      - Boxplot으로 데이터 모양을 파악하는데 유용하게 쓰임
    5. quartile deviation (사분편차) : (Q3-Q1) / 2
      - 순서대로 나열된 데이터의 중앙값을 포함한 50%의 데이터 분포를 보는 값

 

추리 통계치(Inferetial Statistics)

수집한 데이터를 바탕으로 추론 예측하는 통계 기법 
: 수집된 데이터를 기반으로 통계적 가설을 확률기반으로 선택할 것이지아니면 버릴것인지 판단(가설 검정)

  1. Population (모집단): 연구자가 알고싶어하는 대상, 집단 전체 (즉, 연구자가 알고싶은것 그 자체)
  2. Sample (표본) :연구자가 측정 또는 관찰한 결과들의 집합
    1. Simple random sampling
    2. Systematic smpling
    3. Stratified random sampling
    4. Cluster sampling
가설 검정 :
주어진 상황에 대해서 하고자 하는 주장이 맞는지 아닌지를 판단하는 과정. 
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지의 여부를 판정.