도메인 지식과 창의성을 바탕으로 데이터셋에 존재하는 Feature을 재조합하여 새로운 Feature를 생성하는것.
DataFrame (Tabular Data)
- 2 dimensional grid data
- 각 데이터
- 각 column은 같은 데이터(Variable) 타입 을 가지고 있다
- 각 row의 모든 데이터(Observation)는 열마다 다른 데이터 타입을 가질 수 있다. = 이기종 데이터 (Heterogeneous Data)
Index | Name | Position |
Feature 1 | 김군 | 1 |
Feature 2 | 김양 | 2 |
Feature 3 | 오군 | 3 |
Feature 4 | 이양 | 4 |
Feature 5 | 박군 | 5 |
Feature 6 | 최양 | 6 |
Feature 7 | 정양 | 7 |
위와같은 표는 tidy format형태로 Searborn 라이브러리에 적합.
wide format형태는 아래와 같다
A | B | |
X | NaN | 2 |
Y | 16 | 3 |
Z | 11 | 1 |
'개념 이론 수학' 카테고리의 다른 글
[수학] 경사하강법 (Gradient Descent) (0) | 2021.06.09 |
---|---|
[수학] 합성함수 미분(Chain Rule) (13) | 2021.06.09 |
[수학] 편미분 (Partial Derivative) (0) | 2021.06.09 |
[수학] 기초 미분 (Basic Derivative) (0) | 2021.06.09 |
[DataAnalysis] EDA (Exploratory Data Analysis) -탐색적 데이터 분석 (0) | 2021.06.07 |