티스토리 뷰
1. 확률 분포의 추정
- "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다" -> 데이터 분석의 가정
- 데이터의 표본으로부터 확률 변수의 분포를 알아내야 함.
(1) 확률변수가 어떤 확률 분포를 따르는가, 데이터의 생성 원리나 데이터의 특성을 찾기
- 히스토그램을 그리거나 확률 분포의 모양 살펴보기
* 데이터가 0 or 1 => 베르누이분포
* 데이터 카테고리 값 => 카테고리분포
* 데이터는 0과 1사이의 실수 값 => 베타분포
* 데이터는 항상 0 또는 양수 => 로그정규분포, 감마분포, F분포, 카이제곱분포, 지수분포, 하프코시분포 등
* 데이터가 크기 제한이 없는 실수 => 정규분포, 스튜던트 t분포, 코시분포, 라플라스 분포 등
(2) 확률 분포의 종류 (Probability Distribution)
가장 널리 알려진 분포는 정규분포이다. 정규분포는 네이버 사전의 의미에 따르면
"도수 분포 곡선이 평균값을 중앙으로 하여 좌우 대칭으로 종 모양을 이루는 분포"라고 한다.
정규 분포는 normal distribution 또는 가우스분포(Gaussian distribution)이라고 명명하며, 연속확률분포의 하나이다.
이때 모수(parameter) 라는 개념이 존재하는데, 모수란 모집단의 특성을 나타내는 수치로. 모든 확률 분포는 한개 이상의 모수를 가지고 있으며 이는 확률 분포의 모양을 결정한다. 정규분포의 경우 평균과 분산, 2개의 모수가 있다. 이 모수가 정규분포의 모양을 결정한다. 분포는 모수가 알려져 있지 않기 때문에 추정(Estimation)이라는 과정을 통해 모수를 추측해보는 과정을 거친다.
cf. 확률 분포는 두가지로 나뉘어 지는데 연속형 확률분포와 이산형 확률 분포가 존재한다.
2. 모수적 vs 비모수적 vs 세미모수적 모델
우선 모수적과 비 모수적이라는 단어의 의미부터 알아보자.
# 모수적 모델(Parametric) - 통계학, 산업공학 전공자들이 주로 주장
- 확률 분포를 기반으로 해당 모수를 추정하는 과정이 포함되어 있는 모델 , 즉 모수의 형태를 함수 형태의 분포로 가정
- 연속형 확률분포
정규분포, 일양분포, 지수분포, 로그정규분포, t분포, 카이제곱분포, f분포, 감마분포, 베타분포 등 - 이산형 확률분포
베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포, 음이항분포 등
ex) 선형회귀(모델 구축시 정규 분포를 가정하기 때문에 모수적 방법론에 속함), 회귀모델, 로지스틱모델, Simple Neural networks.
모수적 모델의 장점? Simpler, Fast, Less Data // 한계? Constrained, Limited Complexity, Poor fit
# 비모수적 모델 (Non-parametric) - 컴퓨터과학/공학자들이 주장
- 통계학에서 parameter에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법 , 정규성 검정에서 정규분포를 따르지 않을때
ex) 최 근접 이웃 알고리즘 (확률 분포의 개념이 전혀 사용되지 않음), 랜덤포레스트. 의사결정나무
비모수적 모델의 장점? Flexibility, Power,Performance // 한계? More data, Slower, Overfitting
# 세미모수적 모델(Semiparametric) - 모수적모델과 , 비 모수적 모델을 상충시켜 만든 모델
- 일부에서 모수는 존재하지만 확률 분포 가정을 사용하지 않는 모델
- 연결선의 가중치인 모수는 존재하는데 이 모수는 확률 분포와 무관하게 얻어진다.
ex) SVM, 인공신경망 ... - SVM을 non-parametric으로 볼 수도 있다.
<출처>
1. https://datascienceschool.net/view-notebook/864a2cc43df44531be32e3fa48769501/
2. https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EB%B6%84%ED%8F%AC
3. https://brunch.co.kr/@seoungbumkim/7
4. https://dangdo.tistory.com/43
5. https://en.wikipedia.org/wiki/Semiparametric_regression
6.
7.
'인공지능 > 머신러닝' 카테고리의 다른 글
[ML Algorithm] SoftMax Function(소프트맥스 함수) (0) | 2020.10.10 |
---|---|
[ML Algorithm] Neural Oblivious Decision Ensembles(NODE) (0) | 2020.10.05 |
[Math] 모수 추정 방법론인 최대 우도 추정법 (Maximum Likelihood Estimation)이란? (0) | 2020.06.11 |
[ML Algorithm] StratifiedKFold / StratifiedShuffleSplit 차이 (0) | 2020.06.03 |
[ML Algorithm] Tree 모델 전체적 개념 및 parameter 정리 (3) | 2020.04.26 |