본문 바로가기

분류 전체보기

[데이터전처리] tidy-wide tabular data -변환-> Pivot Table, Melt 1. Wide Table (long-form형식) 이러한 데이터를 기반으로 실제로 구현, 변환을 해보겠습니다. %matplotlib inline import pandas as pd import numpy as np import seaborn as sns wide_table1 = pd.DataFrame([[np.nan, 2], [16, 11], [3, 1]], index=['X', 'Y', 'Z'], columns=['A', 'B']) wide_table1 A B X NaN 2 Y 16.0 11 Z 3.0 1 wide_table1은 wide table의 형태 (=long-form) 테이블은 2개의 열과 3개의 행으로 구성되어 있으며 각각 라벨링 되어 있습니다. 2. Transpose (.T; 전치) wid.. 더보기
[Machine Learning] 지도학습(Supervised Learning)/ 비지도학습(Unsupervised Learning)/ 강화학습(Reinforcement Learning) Machin Learning 1. 지도학습(Supervised Learning) - 라벨o 회기 (Prediction) 회기 알고리즘은 Continuous Data를 바탕으로 결과를 예측 분류 (Classification) 분류 알고리즘은 주어진 데이터의 Category / Class 예측 Train Data로부터 하나의 함수가 유추되고 나면 해당 함수에 대한 평가를 통해 파라미터를 최적화(fit)한다. 이러한 평가를 위해 교차 검증(Cross-Validation)이 이용되며 이를 위해 검증 집합(Validation Set) 을 다음의 3가지로 나눈다. 훈련 집합(A Training Set) 검증 집합(A Validation Set) 테스트 집합(A Test Set) 이러한 교차 검증(CV)을 통하여 훈.. 더보기
[데이터 전처리] Pandas isin Column이 list의 값들을 포함하고 있는 모든 행들을 골라낼 때 주로 쓴다. df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'f']}) A B 0 1 a 1 2 c 2 3 f df[df['A'].isin([1, 3, 12])] A B 0 1 a 2 3 f 더보기
[통계/python] 가설검정3 - ANOVA test ANOVA (Analysis of Variance; 분산분석) 2개 이상 그룹의 평균에 차이가 있는지를 분산을 통해 가설 검정하는 방법. 여러 그룹들이 하나의 분포에서부터 왔다는 가정에서 출발하여 이를 위한 지표 F-statistic(두개의 분산의 비율)로 확인. ANOVA 테스트를 하는 이유 : 여러개를 하나하나씩 비교 하는 것은 그룹수가 늘어 날 수록 에러의 값도 커진다.(Multiple Comparision problem; 1종오류) 따라서 그 그룹들을 한번에 비교하는 방법이 필요. F 값이 높다는 의미 1. 분자(다른그룹간의 분산)는 크고 분모(전체 그룹의 분산)는 작다 2. 다른 그룹끼리의 분포가 다를 것이다. 3. 따라서 적어도 어떠한 그룹의 평균은 전체 그룹의 평균값과 다르다. 1. One-.. 더보기
[통계] 가설 검정 - 독립 변수 (Independent variable) / 종속변수 (Dependent variable) / 통제변수(control variable) 독립 변수 (Independent variable) 예측변수(predictable variable)/ 설명변수((explanaory variable) 연구자/조사자가 의도적으로 변화시키는 변수 여기서 독립은 논리적 관계에서의 독립을 의미, 주로 인과관계에서 독립적인 위치는 원인 (결과=종속) 종속변수 (Dependent variable) = 반응변수(response variable)/ 결과변수(outcome variable) 연구/조사자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶은 변수. 여기서 종속은 논리적인 관계에서의 종속을 의미, 주로 인과 관계에서 종속적인 위치는 결과(원인=독립) 통제변수(control variable) 연구/조사의 주된 관심사가 되는 변수가 아닌 경우 (기본적으로는 독립.. 더보기
[통계] 가설검정2 - Type of Error Type 1 Error = FTR : 참인 귀무가설을 기각하는것 = H0(귀무가설)이 True 임에도 Reject 된것 Type 2 Error = TPR : 거짓인 귀무가설을 기각하지 않는것 = H0(귀무가설)이 False, Ha(대립가설)이 True일때, Ha를 False로 보고 H0을 채택한것. 더보기
[Python] 가설검정1 - Student T-test [통계이론] >>>> https://kimmaadata.tistory.com/19 [통계] 가설검정1 - Student T-test (ft. z-test) Student T-test 목적: 두개의 집단이 통계적으로 같은지 다른지 비교하기 위해 사용 두집단의 평균값의 차이가 표준편차보다 현저히 작으면 이 차이는 우연히 밸생했다라고 결론, 반대로 두집단의 kimmaadata.tistory.com 이어서 파이썬에서 활용하는 방식 분석 순서 1)두 집단의 분산이 같은지 검정한다 (var.test()) : 데이터정규성 확인(python normal test) 2)분산이 다르면 Welch의 t-test를 적용한다 (t.test()) 3)분산이 같으면 pooled variance를 이용한 t-test를 적용한다 (v.. 더보기
[통계] 가설검정1 - Student T-test (ft. z-test) Student T-test 목적: 두개의 집단이 통계적으로 같은지 다른지 비교하기 위해 사용 두집단의 평균값의 차이가 표준편차보다 현저히 작으면 이 차이는 우연히 밸생했다라고 결론, 반대로 두집단의 평균갓의 차이가 표준편차보다 현저히 크면 이 차이가 우연히 발생하지 않았다고 결론. 이 테스트를 개발한 사람의 필명이 Student 마지막 철자 T를 따서 T-test 모집단의 표준편차가 알려지지 않았을때 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정방법 Z-test = 모집단의 정규분포 z transformation = 정규분포를 표준정규분포로 바꾸는 것 =표준화 z-score = (X-μ) / σ --> 관심있는 값-평균 / 표준편차 ==> 이후 값을 표준정규분포표에서 면적을 찾고 - 0.5 .. 더보기