본문 바로가기

Computer Science/파이썬

[Python] 데이터 전처리 2 - 중복값 확인 및 처리

데이터를 불러오고 결측치를 처리하고 나면, 중복된 값이 있는지 확인하고 이를 처리 해야 한다.

특히, merge나 Join으로 데이터를 합친 프레임이라면 더더욱 확인하고 처리해야하는 중복값.

 

  1. 중복값 확인 (True값이 중복된 부분)
    1. df.duplicated(['중복값확인하고싶은column'])
    2. df.duplicated(['중복값 확인하고싶은 column1', '중복값 확인하고싶은 column2'])
      #df
        key1 key2  col
      0    a    v    1
      1    b    w    2
      2    b    w    3
      3    c    x    4
      4    c    y    5
      
      출처: https://rfriend.tistory.com/266 [R, Python 분석과 프로그래밍의 친구 (by R Friend)]
      
      df.duplicated(['중복값확인하고싶은column'])
      #result
      0    False
      1    False
      2     True
      3    False
      4     True
      dtype: bool
      
      df.duplicated(['중복값확인하고싶은column1', '중복값확인하고싶은column2'])
      #result
      0    False
      1    False
      2     True
      3    False
      4    False
      dtype: bool​
  2. 중복값 처리
    1. df.drop_duplicates(['중복값확인하고싶은column이름'], keep = 'first')
      keep = 'first' 첫번째 값만 반환 그외는 drop/ 'last' 마지막 값만 반환 그외는 drop / 'False' 중복값 모두 drop