본문 바로가기

eda

[DataAnalysis] EDA (Exploratory Data Analysis) -탐색적 데이터 분석 EDA 원본데이터(Raw Data)를 탐색하는 방법, 분석하기전 전체적인 테이터의 '견적'을 내는 분석 시각화 (Data Visualization)을 통해 패턴을 찾고, 데이터의 특이성을 발견하여(데이터전처리). 통계와 그래픽을 통해 가설을 결정하는과정을 포함한다. EDA의 방법 Non-Graphic 연속형 데이터 (Numeric Data) : 숫자형 데이터는 샘플데이터의 분포를 확인하는 것이 주 목적. 주로 Summary Statistics를 활용함. Center (평균값 Mean, 중앙값 Median, 최빈값 Mode) df.mean() df.median() df.mode() Spread (분산 Variance, 표준편차 SD(Standard Deafness), 사분위 IQR, 범위 Range) df.. 더보기
[Python] 데이터 전처리 2 - 중복값 확인 및 처리 데이터를 불러오고 결측치를 처리하고 나면, 중복된 값이 있는지 확인하고 이를 처리 해야 한다. 특히, merge나 Join으로 데이터를 합친 프레임이라면 더더욱 확인하고 처리해야하는 중복값. 중복값 확인 (True값이 중복된 부분) df.duplicated(['중복값확인하고싶은column']) df.duplicated(['중복값 확인하고싶은 column1', '중복값 확인하고싶은 column2']) #df key1 key2 col 0 a v 1 1 b w 2 2 b w 3 3 c x 4 4 c y 5 출처: https://rfriend.tistory.com/266 [R, Python 분석과 프로그래밍의 친구 (by R Friend)] df.duplicated(['중복값확인하고싶은column']) #res.. 더보기