본문 바로가기

전체 글

[Python] Feature Engineering 1 - DataFrame manipulation (단순 합계 column생성, string to numeric with replace def, Concat, Merge, Join) 1. 기존 데이터프레임에서 선택한 컬럼의 값들의 합의 값으로 새로운 컬럼을 추가 이때 column의 값은 numerical data(int, float) df['새로만들컬럼이름'] = df['기존col1'] + df['기존col2'] + df['기존col3'] df 2. 숫자의 콤마( ' , ')를 교체하는 방법 숫자에 ' , ' 가 기재되어 있을시 numeric data가 아닌 string으로 인식 하므로 숫자의 ', '를 공백으로 대치하여야 한다. [in] testString = '25,970' testString = testString.replace(',','') [out] '25970' 데이터셋에 적용하기 위해서는 apply 함수를 사용하여 각 column에 한번에 적용 해주어야 한다. # def.. 더보기
[DataAnalysis] Feature Engineering - DataFrame(Tabular Data) 도메인 지식과 창의성을 바탕으로 데이터셋에 존재하는 Feature을 재조합하여 새로운 Feature를 생성하는것. DataFrame (Tabular Data) - 2 dimensional grid data - 각 데이터 - 각 column은 같은 데이터(Variable) 타입 을 가지고 있다 - 각 row의 모든 데이터(Observation)는 열마다 다른 데이터 타입을 가질 수 있다. = 이기종 데이터 (Heterogeneous Data) Index Name Position Feature 1 김군 1 Feature 2 김양 2 Feature 3 오군 3 Feature 4 이양 4 Feature 5 박군 5 Feature 6 최양 6 Feature 7 정양 7 위와같은 표는 tidy format형태로 S.. 더보기
[DataAnalysis] EDA (Exploratory Data Analysis) -탐색적 데이터 분석 EDA 원본데이터(Raw Data)를 탐색하는 방법, 분석하기전 전체적인 테이터의 '견적'을 내는 분석 시각화 (Data Visualization)을 통해 패턴을 찾고, 데이터의 특이성을 발견하여(데이터전처리). 통계와 그래픽을 통해 가설을 결정하는과정을 포함한다. EDA의 방법 Non-Graphic 연속형 데이터 (Numeric Data) : 숫자형 데이터는 샘플데이터의 분포를 확인하는 것이 주 목적. 주로 Summary Statistics를 활용함. Center (평균값 Mean, 중앙값 Median, 최빈값 Mode) df.mean() df.median() df.mode() Spread (분산 Variance, 표준편차 SD(Standard Deafness), 사분위 IQR, 범위 Range) df.. 더보기
[Python] 데이터 전처리 2 - 중복값 확인 및 처리 데이터를 불러오고 결측치를 처리하고 나면, 중복된 값이 있는지 확인하고 이를 처리 해야 한다. 특히, merge나 Join으로 데이터를 합친 프레임이라면 더더욱 확인하고 처리해야하는 중복값. 중복값 확인 (True값이 중복된 부분) df.duplicated(['중복값확인하고싶은column']) df.duplicated(['중복값 확인하고싶은 column1', '중복값 확인하고싶은 column2']) #df key1 key2 col 0 a v 1 1 b w 2 2 b w 3 3 c x 4 4 c y 5 출처: https://rfriend.tistory.com/266 [R, Python 분석과 프로그래밍의 친구 (by R Friend)] df.duplicated(['중복값확인하고싶은column']) #res.. 더보기
[e-Book] 시각화의 기초 - O'Reilly (Fundamentals of Data Visualization) https://clauswilke.com/dataviz/ Fundamentals of Data Visualization A guide to making visualizations that accurately reflect the data, tell a story, and look professional. clauswilke.com O'Reilly 에서 나온 시각화의 기초 e-book 이다 간단히 훑어 보기만 했는데 시각화에 있어서 참고하기 가장 좋은 기본이 담긴 사이트이므로 必참고. 더보기
[Python] 데이터 전처리 1 - 결측치 확인 및 처리 데이터를 불러왔으면 이제부터 데이터 전처리 과정이 시작된다, 데이터의 구성요소를 빠르게 확인하고 제대로된 데이터들로 만들어 줘야 한다. 데이터 확인 df.shape() ==> 데이터셋의 형태, 즉 열과 행의 수를 보여줌 df.head() / df.tail() ==> 데이터셋의 위에서 5개 / 아래서 5개 보여줌 (괄호안에 int를 넣으면 그 int만큼 보여줌) dtypes ==> 데이터 프레임의 type을 보여줌 (float, object, str...etc.) df.describe() ==> 데이터셋의 numeric 행에 대한 count, mean, std(표준편차), min, 25%(Q1), 50%(Q2), 75%(Q3), max(Q4)값을 한번에 보여줌 결측치 확인 df.info() ==> 데이터셋.. 더보기
[Python] Pandas로 데이터 불러오기 기본적인 데이터 전처리의 과정을 하기전 데이터를 불러오는 방법부터 알아보자. PAANDS 공식 Ref. pandas.read_csv https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html pandas.read_csv — pandas 1.2.4 documentation Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing engine can, meaning the latter will be used and automatically detect the separator by .. 더보기
인생의 새로운 카테고리 만들기 지금까지 살면서 인생의 1/3은 영화를 만들거나 홍보하거나 비평하면서 영화로 먹고살았는데. 어느 시점에서 명예와 보람뿐이던 내 업에 대한 회의감이 내 온몸을 감싸며 번아웃이 왔다. 번아웃이 오고 극복하려 심리 상담도 하고 어느 정도 추스르면서 일을 더 했지만 글쎄... 조그마한 부조리도 쉽게 넘어가거나 극복할 수가 없었다. 그렇게 영화계에서 발을 빼고 운좋게 바로 라이프 스타일을 큐레이션 하며 크고 작은 이벤트를 기획할 수 있는 스타트업에 들어갔지만. 역시나 스타트업도 별반 다를게 없이 무능하지만 정치질로 대표에게 붙어먹은 사람들은 일 안 하고 입으로만 변명과 업무 과시를 할 뿐 이곳도 일하는 사람만 일하고 아닌 사람은 계속 저렇게 돈 많이 받고 일 안 하는구나 였습니다. (정치질만 하느라 일 안 할 거.. 더보기