데이터를 불러오고 결측치를 처리하고 나면, 중복된 값이 있는지 확인하고 이를 처리 해야 한다.
특히, merge나 Join으로 데이터를 합친 프레임이라면 더더욱 확인하고 처리해야하는 중복값.
- 중복값 확인 (True값이 중복된 부분)
- df.duplicated(['중복값확인하고싶은column'])
- df.duplicated(['중복값 확인하고싶은 column1', '중복값 확인하고싶은 column2'])
#df key1 key2 col 0 a v 1 1 b w 2 2 b w 3 3 c x 4 4 c y 5 출처: https://rfriend.tistory.com/266 [R, Python 분석과 프로그래밍의 친구 (by R Friend)] df.duplicated(['중복값확인하고싶은column']) #result 0 False 1 False 2 True 3 False 4 True dtype: bool df.duplicated(['중복값확인하고싶은column1', '중복값확인하고싶은column2']) #result 0 False 1 False 2 True 3 False 4 False dtype: bool
- 중복값 처리
- df.drop_duplicates(['중복값확인하고싶은column이름'], keep = 'first')
keep = 'first' 첫번째 값만 반환 그외는 drop/ 'last' 마지막 값만 반환 그외는 drop / 'False' 중복값 모두 drop
- df.drop_duplicates(['중복값확인하고싶은column이름'], keep = 'first')
'Computer Science > 파이썬' 카테고리의 다른 글
[Python] 가설검정1 - Student T-test (0) | 2021.06.20 |
---|---|
[Python] 데이터 전처리 3 - DataFrame 슬라이스 (인덱서 loc, iloc) (0) | 2021.06.09 |
[Python] Feature Engineering 1 - DataFrame manipulation (단순 합계 column생성, string to numeric with replace def, Concat, Merge, Join) (0) | 2021.06.08 |
[Python] 데이터 전처리 1 - 결측치 확인 및 처리 (0) | 2021.06.07 |
[Python] Pandas로 데이터 불러오기 (0) | 2021.06.06 |