본문 바로가기

개념 이론 수학

머신러닝에서의 컴퓨터 공학 키워드: Math, Algorithm, Hardware/Software, Computer Engineering, Computer Science, Pattern Recognition, (Big) Data, Machine Learning 머신러닝은 실생활의 문제를 해결하기위해 발전되고 있는 compound 개념 컴퓨터 공학적인 머신러닝 전문가 만들어진 소스코드를 통해 데이터를 바라본다 통계학적인 머신러닝 전문가 수학을 통해 데이터를 바라본다 데이터 마이닝? '사람에게 인사이트를 제공'하는것 머신러닝은? 개발자가 만든 프로그램을 활용하여 '데이터부터 시작하여 패턴(또는 모델)을 학습하고 알고리즘을 활용하여 데이터에 대해 특정 작업을 수행하는 과정' 머신러닝에서 데이터는 어떻게 처리하여 새롭게 만들 것인가에 초.. 더보기
[인공 지능] 머신 러닝과 딥러닝의 차이 Artificial Intelligence; AI 인공지능은 기계가 인간의 지능을 구현하는것, 인간의 감각, 사고력을 지닌 채 인간처럼 생각하는 인공 지능을 ‘일반 AI(General AI)’라고 하지만, 현재의 기술 발전 수준에서 만들 수 있는 인공지능은 ‘좁은 AI(Narrow AI)’의 개념에 포함된다. 좁은 AI는 소셜 미디어의 이미지 분류 서비스나 얼굴 인식 기능 등과 같이 특정 작업을 인간 이상의 능력으로 해낼 수 있는 것을 특징으로 한다. Machine Learning; ML 인공 지능을 구현하는 구체적 접근 방식으로 머신 러닝은 기본적으로 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단이나 예측을 하는 것. 궁극적으로는 의사 결정 기준에 대한 구체적.. 더보기
[통계] 가설 검정 - 독립 변수 (Independent variable) / 종속변수 (Dependent variable) / 통제변수(control variable) 독립 변수 (Independent variable) 예측변수(predictable variable)/ 설명변수((explanaory variable) 연구자/조사자가 의도적으로 변화시키는 변수 여기서 독립은 논리적 관계에서의 독립을 의미, 주로 인과관계에서 독립적인 위치는 원인 (결과=종속) 종속변수 (Dependent variable) = 반응변수(response variable)/ 결과변수(outcome variable) 연구/조사자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶은 변수. 여기서 종속은 논리적인 관계에서의 종속을 의미, 주로 인과 관계에서 종속적인 위치는 결과(원인=독립) 통제변수(control variable) 연구/조사의 주된 관심사가 되는 변수가 아닌 경우 (기본적으로는 독립.. 더보기
[통계] 가설검정2 - Type of Error Type 1 Error = FTR : 참인 귀무가설을 기각하는것 = H0(귀무가설)이 True 임에도 Reject 된것 Type 2 Error = TPR : 거짓인 귀무가설을 기각하지 않는것 = H0(귀무가설)이 False, Ha(대립가설)이 True일때, Ha를 False로 보고 H0을 채택한것. 더보기
[통계] 가설검정1 - Student T-test (ft. z-test) Student T-test 목적: 두개의 집단이 통계적으로 같은지 다른지 비교하기 위해 사용 두집단의 평균값의 차이가 표준편차보다 현저히 작으면 이 차이는 우연히 밸생했다라고 결론, 반대로 두집단의 평균갓의 차이가 표준편차보다 현저히 크면 이 차이가 우연히 발생하지 않았다고 결론. 이 테스트를 개발한 사람의 필명이 Student 마지막 철자 T를 따서 T-test 모집단의 표준편차가 알려지지 않았을때 정규분포의 모집단에서 모은 샘플의 평균값에 대한 가설 검정방법 Z-test = 모집단의 정규분포 z transformation = 정규분포를 표준정규분포로 바꾸는 것 =표준화 z-score = (X-μ) / σ --> 관심있는 값-평균 / 표준편차 ==> 이후 값을 표준정규분포표에서 면적을 찾고 - 0.5 .. 더보기
[통계] 가설검정 표본 평균의 표준 오차 ( Standard Error of the Sample Mean )를 통해 검정 SE = s / √ n s (우측) = 표본의 표준편차 (sample standard deviation) n = 표본의 수 (sample size) 결론: 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함 모수적 방법 과 비모수적 방법의 차이는 가정의 차이; 자료가 정규분포를 따른다고 가정하는 분석 = 모수적 방법 ; 비모수적 방법보다 다소 높은 검정력, 크이의 차이를 제시할 수 있음 자료가 정규분포를 따르지 않을때 = 비모수적 방법 ;정규성 가정이 필요없음, 순위척도로 적용가능 모수적 검정 방법 Student T-test One .. 더보기
[통계] 기술 통계치(Descriptive Statistics) / 추리 통계치(Inferetial Statistics) 기술 통계치(Descriptive Statistics) 수집한 데이터를 요약, 묘사, 설명하는 통계 기법 데이터의 집중화 경향 값 (Central tendecy) : 대표값 mean(평균) : (정략적 자료의 대표값) 이상치의 영향을 많이 받음 - 산술 평균(Arithmetic mean): 데이터 n 개를 모두 더해서 n개로 나눈값 - 기하평균(geometirc mean), - 조화평균 (Harmonic mean) - 가중평균 (Weighted mean median(중앙값) : (순위자료의 대표값) mode(최빈값) : 명목자료의 대표값 min max count 데이터의 분산도 값 (Variation) range (범위) : 자료의 최대값과 최소값의 차이 (max-min) Variance (분산) : 편.. 더보기
[수학] 경사하강법 (Gradient Descent) 미분을 사용하는 최적화 알고리즘의 대표적인 예시 경사하강법 (Gradient Descent)은 위에서 거론 됐던 오차 함수인 error (𝜀) 을 최소화 하는 𝑎,𝑏 를 찾을 수 있는 최적화 알고리즘 중의 하나. 최적의 a,b를 찾기 위해선 미분계수가 0인 곳을 찾으면 된다. 하지만 현실적으로 우리가 앞으로 다루게 될 문제에선 파라미터의 갯수는 수없이 많을 것이고 하나의 minimum/maximum만이 존재하지 않는 상황에 직면한다. 경사하강법은 임의의 a, b를 선택한 후 (random initialization)에 기울기 (gradient)를 계산해서 기울기 값이 낮아지는 방향으로 진행. 기울기는 항상 손실 함수 값이 가장 크게 증가하는 방향으로 진행합니다. 그렇기 때문에 경사하강법 알고리즘은 기울기.. 더보기