본문 바로가기

데이터전처리

[DataAnalysis] EDA (Exploratory Data Analysis) -탐색적 데이터 분석 EDA 원본데이터(Raw Data)를 탐색하는 방법, 분석하기전 전체적인 테이터의 '견적'을 내는 분석 시각화 (Data Visualization)을 통해 패턴을 찾고, 데이터의 특이성을 발견하여(데이터전처리). 통계와 그래픽을 통해 가설을 결정하는과정을 포함한다. EDA의 방법 Non-Graphic 연속형 데이터 (Numeric Data) : 숫자형 데이터는 샘플데이터의 분포를 확인하는 것이 주 목적. 주로 Summary Statistics를 활용함. Center (평균값 Mean, 중앙값 Median, 최빈값 Mode) df.mean() df.median() df.mode() Spread (분산 Variance, 표준편차 SD(Standard Deafness), 사분위 IQR, 범위 Range) df.. 더보기
[Python] 데이터 전처리 2 - 중복값 확인 및 처리 데이터를 불러오고 결측치를 처리하고 나면, 중복된 값이 있는지 확인하고 이를 처리 해야 한다. 특히, merge나 Join으로 데이터를 합친 프레임이라면 더더욱 확인하고 처리해야하는 중복값. 중복값 확인 (True값이 중복된 부분) df.duplicated(['중복값확인하고싶은column']) df.duplicated(['중복값 확인하고싶은 column1', '중복값 확인하고싶은 column2']) #df key1 key2 col 0 a v 1 1 b w 2 2 b w 3 3 c x 4 4 c y 5 출처: https://rfriend.tistory.com/266 [R, Python 분석과 프로그래밍의 친구 (by R Friend)] df.duplicated(['중복값확인하고싶은column']) #res.. 더보기
[Python] 데이터 전처리 1 - 결측치 확인 및 처리 데이터를 불러왔으면 이제부터 데이터 전처리 과정이 시작된다, 데이터의 구성요소를 빠르게 확인하고 제대로된 데이터들로 만들어 줘야 한다. 데이터 확인 df.shape() ==> 데이터셋의 형태, 즉 열과 행의 수를 보여줌 df.head() / df.tail() ==> 데이터셋의 위에서 5개 / 아래서 5개 보여줌 (괄호안에 int를 넣으면 그 int만큼 보여줌) dtypes ==> 데이터 프레임의 type을 보여줌 (float, object, str...etc.) df.describe() ==> 데이터셋의 numeric 행에 대한 count, mean, std(표준편차), min, 25%(Q1), 50%(Q2), 75%(Q3), max(Q4)값을 한번에 보여줌 결측치 확인 df.info() ==> 데이터셋.. 더보기
[Python] Pandas로 데이터 불러오기 기본적인 데이터 전처리의 과정을 하기전 데이터를 불러오는 방법부터 알아보자. PAANDS 공식 Ref. pandas.read_csv https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html pandas.read_csv — pandas 1.2.4 documentation Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing engine can, meaning the latter will be used and automatically detect the separator by .. 더보기