본문 바로가기

분류 전체보기

[통계] 가설검정 표본 평균의 표준 오차 ( Standard Error of the Sample Mean )를 통해 검정 SE = s / √ n s (우측) = 표본의 표준편차 (sample standard deviation) n = 표본의 수 (sample size) 결론: 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함 모수적 방법 과 비모수적 방법의 차이는 가정의 차이; 자료가 정규분포를 따른다고 가정하는 분석 = 모수적 방법 ; 비모수적 방법보다 다소 높은 검정력, 크이의 차이를 제시할 수 있음 자료가 정규분포를 따르지 않을때 = 비모수적 방법 ;정규성 가정이 필요없음, 순위척도로 적용가능 모수적 검정 방법 Student T-test One .. 더보기
[통계] 기술 통계치(Descriptive Statistics) / 추리 통계치(Inferetial Statistics) 기술 통계치(Descriptive Statistics) 수집한 데이터를 요약, 묘사, 설명하는 통계 기법 데이터의 집중화 경향 값 (Central tendecy) : 대표값 mean(평균) : (정략적 자료의 대표값) 이상치의 영향을 많이 받음 - 산술 평균(Arithmetic mean): 데이터 n 개를 모두 더해서 n개로 나눈값 - 기하평균(geometirc mean), - 조화평균 (Harmonic mean) - 가중평균 (Weighted mean median(중앙값) : (순위자료의 대표값) mode(최빈값) : 명목자료의 대표값 min max count 데이터의 분산도 값 (Variation) range (범위) : 자료의 최대값과 최소값의 차이 (max-min) Variance (분산) : 편.. 더보기
[부트캠프] 한달하고도 보름이 지난 후기...보다는 징징거림 부트캠프 한달 보름째, 멘탈이 탈탈 털려나가고 있고 불안함에 매일 새벽까지 예/복습을 하고 있지만 시간이 부족함을 느끼면서 잠도 부족하고 피로도 쌓인다. 24시간이 모자라.... 그래도 사람같은 생활을 하고자 매일매일 운동을하고 규칙적인 식습관으로 바꾸었지만, 기존의 리프레시 방법인 맛집찾아다니며 술먹기를 못해서 너무 피곤(?)하다고 느끼고 있다. 술...술을 달라... 하지만 또 술을 마시면 그다음날 컨디션 안좋아서 쫒아가는것도 힘드니까 술을 안(못)먹고 있는 상황이라서 그것도 좀 슬프다.. 같이 공부하고 똑같은거 배운 사람들이 나보다 더 잘하고 이해력 좋은거 볼때면 포기하고 싶은 맘이 하루에도 12번씩 올라오지만 그래도 좀 더 꾸준히 해볼 작정. 진짜 이해안가던거 좀만 더 보고 자야지.. 투이타에서 .. 더보기
[Python] 데이터 전처리 3 - DataFrame 슬라이스 (인덱서 loc, iloc) python 에서는 연속되는 여러개의 요소를 가진 자료형을 시퀀스 자료형(Sequence Types)이라고 한다. 그리고 이 시퀀스 자료형들은 자신의 하위요소에 접근하기 위해 슬라이스(Slice)를 문법을 사용한다. * 배열, 문자열, Numpy 배열, Pandas의 DataFrame 에서 슬라이스 구문을 사용할 수 있다. but. 구문은 같지만 내부 동작은 다르다. 따라서 배열의 슬라이스, DataFrame의 슬라이스는 다른 결과를 나타낼 수 있다. 인덱서 loc, iloc 1. loc = label이나 조건표현으로 선택하는 방법 Access a group of rows and columns by label(s) or a boolean array. ## row 행 선택 # 선택하고 싶은 row만 선택 .. 더보기
[수학] 경사하강법 (Gradient Descent) 미분을 사용하는 최적화 알고리즘의 대표적인 예시 경사하강법 (Gradient Descent)은 위에서 거론 됐던 오차 함수인 error (𝜀) 을 최소화 하는 𝑎,𝑏 를 찾을 수 있는 최적화 알고리즘 중의 하나. 최적의 a,b를 찾기 위해선 미분계수가 0인 곳을 찾으면 된다. 하지만 현실적으로 우리가 앞으로 다루게 될 문제에선 파라미터의 갯수는 수없이 많을 것이고 하나의 minimum/maximum만이 존재하지 않는 상황에 직면한다. 경사하강법은 임의의 a, b를 선택한 후 (random initialization)에 기울기 (gradient)를 계산해서 기울기 값이 낮아지는 방향으로 진행. 기울기는 항상 손실 함수 값이 가장 크게 증가하는 방향으로 진행합니다. 그렇기 때문에 경사하강법 알고리즘은 기울기.. 더보기
[수학] 합성함수 미분(Chain Rule) 함수의 함수(합성함수)를 미분하기 위해 사용하는 방식 F(x)=f(g(x)) F′(x) → f′((g(x))⋅g′(x) Chain Rule = 양파까기 미분을 할때 깥 함수 (f(x))부터 미분을 한 후 안에있는 함수 (g(x))를 미분한다. 예제 F(x)=(2x^3+7)^6 를 x에 대해 미분하려는 경우 f(x)=x^6, g(x)=2x^3+7로 설정 F′(x)=6(2x^3+7)^5⋅6x^2 Chain Rule은 Deep learning의 핵심 개념 중 하나인 Backward Propagation을 이해하는데 중요하기 때문에 시간이 될 때마다 연습 하자. 더보기
[수학] 편미분 (Partial Derivative) f(x,y)=x^2+2xy+y^2 ∂f(x,y) / ∂x = ∂(x^2+2xy+y^2) / ∂x = 2x+2y y는 상수로 취급하고 x를 기준으로만 미분하거나 반대로 x를 상수 취급하고 y를 기준으로 미분하는 것이 편미분 상당히 많은 머신러닝의 Error 함수는 여러개의 파라미터 값을 통해 결정된다. 이때 쓰이는 것이 편미분, 파라미터가 2개 이상인 Error 함수에서 우선 1개의 파라미터에 대해서만 미분을 하자 라는 목적으로 다른 변수들을 상수 취급 하는 방법. 예제 f(x,y)=x^2+4xy+9y^2 라는 함수의 f′(1,2)의 값을 계산해보겠습니다. 이를 위해서 해야 하는 것은 다음과 같습니다 : 1. x에 대해 편미분 ∂f(x,y) / ∂x = 2x+4y f′(1,2) / ∂x = 2⋅(1)+4.. 더보기
[수학] 기초 미분 (Basic Derivative) 미분이란? 함수를 작게 나누는것으로 X의 값을 아주 미세하게 변화시킨 후 그 결과값이 어떻게 바뀌는지 보며 0에 가깝게 만드는것. 즉, 특정한 파라미터 값 (input, x)에 대해서 나오는 결과값(output, y)이 변화하는 정도를 (0에 가까운 부분을 찾기 위해) 계산하는 것. Data Science 에서의 미분은 Simple Linear Regression (단순선형회귀)에서 주로 사용 한다. == X로 y를 예측할 수 있는 하나의 선을 그린다. ŷ = b0 + b1x b0 = y intercept b1 = Slope * 미분 공식 Python 기본 공식 : f′(x)=f(x+Δx)−f(x) / Δx == f(x+Δx)−f(x−Δx) / 2Δx Δx→0 하지만 실제로 0으로 나눌 수는 없기 때문에.. 더보기