본문 바로가기

개념 이론 수학

[DataAnalysis] Feature Engineering - DataFrame(Tabular Data)

도메인 지식과 창의성을 바탕으로 데이터셋에 존재하는 Feature을 재조합하여 새로운 Feature를 생성하는것.

 

DataFrame (Tabular Data)

- 2 dimensional grid data

- 각 데이터

- 각 column은 같은 데이터(Variable) 타입 을 가지고 있다 

- 각 row의 모든 데이터(Observation)는 열마다 다른 데이터 타입을 가질 수 있다. = 이기종 데이터 (Heterogeneous Data)

Index Name  Position
Feature 1 김군 1
Feature 2 김양 2
Feature 3 오군 3
Feature 4 이양 4
Feature 5 박군 5
Feature 6 최양 6
Feature 7 정양 7

위와같은 표는 tidy format형태로 Searborn 라이브러리에 적합.

wide format형태는 아래와 같다

  A B
X NaN 2
Y 16 3
Z 11 1