[Python] Feature Engineering 1 - DataFrame manipulation (단순 합계 column생성, string to numeric with replace def, Concat, Merge, Join)
1. 기존 데이터프레임에서 선택한 컬럼의 값들의 합의 값으로 새로운 컬럼을 추가 이때 column의 값은 numerical data(int, float) df['새로만들컬럼이름'] = df['기존col1'] + df['기존col2'] + df['기존col3'] df 2. 숫자의 콤마( ' , ')를 교체하는 방법 숫자에 ' , ' 가 기재되어 있을시 numeric data가 아닌 string으로 인식 하므로 숫자의 ', '를 공백으로 대치하여야 한다. [in] testString = '25,970' testString = testString.replace(',','') [out] '25970' 데이터셋에 적용하기 위해서는 apply 함수를 사용하여 각 column에 한번에 적용 해주어야 한다. # def..
더보기
[Python] 데이터 전처리 1 - 결측치 확인 및 처리
데이터를 불러왔으면 이제부터 데이터 전처리 과정이 시작된다, 데이터의 구성요소를 빠르게 확인하고 제대로된 데이터들로 만들어 줘야 한다. 데이터 확인 df.shape() ==> 데이터셋의 형태, 즉 열과 행의 수를 보여줌 df.head() / df.tail() ==> 데이터셋의 위에서 5개 / 아래서 5개 보여줌 (괄호안에 int를 넣으면 그 int만큼 보여줌) dtypes ==> 데이터 프레임의 type을 보여줌 (float, object, str...etc.) df.describe() ==> 데이터셋의 numeric 행에 대한 count, mean, std(표준편차), min, 25%(Q1), 50%(Q2), 75%(Q3), max(Q4)값을 한번에 보여줌 결측치 확인 df.info() ==> 데이터셋..
더보기