[Python] Basic Collection - list[], tuple(), dict{}
기본자료형 vs 컬렉션 자료형 기본 자료형(문자열, 숫자, bool)등은 특정 하나의 값만 사용. 컬렉션은 여러개의 값을 저장 할 수 있다. 컬렉션 자료형의 특징에 따라 리스트, 튜플, 셋, 딕셔너리로 구분. List [ ] 컬렉션 자료형에서 가장 많이 쓰이는 자료형태로; 딘순자료형이 아닌 자료구조의 형태를 취함 리스트는 가변 가능함 (=동적이다) ; 인덱스와 메소드를 활용, 값의 수정 및 정렬이 쉽다. cheeses = ['Cheddar', 'Edam', 'Gouda'] numbers = [123, 456] empty = [] print(cheeses, numbers, empty) # ['Cheddar', 'Edam', 'Gouda'] [123, 456] [] print('numbers[1] :',nu..
더보기
[데이터전처리] tidy-wide tabular data -변환-> Pivot Table, Melt
1. Wide Table (long-form형식) 이러한 데이터를 기반으로 실제로 구현, 변환을 해보겠습니다. %matplotlib inline import pandas as pd import numpy as np import seaborn as sns wide_table1 = pd.DataFrame([[np.nan, 2], [16, 11], [3, 1]], index=['X', 'Y', 'Z'], columns=['A', 'B']) wide_table1 A B X NaN 2 Y 16.0 11 Z 3.0 1 wide_table1은 wide table의 형태 (=long-form) 테이블은 2개의 열과 3개의 행으로 구성되어 있으며 각각 라벨링 되어 있습니다. 2. Transpose (.T; 전치) wid..
더보기
[Python] 데이터 전처리 1 - 결측치 확인 및 처리
데이터를 불러왔으면 이제부터 데이터 전처리 과정이 시작된다, 데이터의 구성요소를 빠르게 확인하고 제대로된 데이터들로 만들어 줘야 한다. 데이터 확인 df.shape() ==> 데이터셋의 형태, 즉 열과 행의 수를 보여줌 df.head() / df.tail() ==> 데이터셋의 위에서 5개 / 아래서 5개 보여줌 (괄호안에 int를 넣으면 그 int만큼 보여줌) dtypes ==> 데이터 프레임의 type을 보여줌 (float, object, str...etc.) df.describe() ==> 데이터셋의 numeric 행에 대한 count, mean, std(표준편차), min, 25%(Q1), 50%(Q2), 75%(Q3), max(Q4)값을 한번에 보여줌 결측치 확인 df.info() ==> 데이터셋..
더보기