티스토리 뷰

변수선택 (Variable Selection)

변수 선택이란? 종속변수(Y)에 유의미한 영향을 미칠 것으로 생각되는 독립변수(X)를 선택하는 과정

변수 선택 방법

(1) 전진 선택법 (forward selection)

(2) 후진 제거법 (backward elimination)

(3) 단계적 방법 (stepwise selection)

 

 

 

 

변수 선택 방법(모델 판단 방법)

(1) AIC(Akaike Information Criterion)

AIC = -2log(likelihood) + 2p

p: 변수의 갯수, n: 데이터 갯수

 

- 주어진 데이터에 대한 통계 모델의 상대적인 품질을 평가하는 기준

- 주어진 데이터에서 최고의 모형을

 

 

 

 

 

 

(2) BIC(Bayes Information Criterion)

BIC = -2log(likelihood) + plog(n)

p: 변수의 갯수, n: 데이터 갯수

- 변수의 개수가 작은 것이 우선 순위이면 AIC 보다 BIC 참고해야함  [2] 

 

 

 

 

차원축소(Dimension Reduction)

- 우주 = 시간 + 공간 총합

- 시간은 1차원이지만, 공간은 정해진 이론이 없음

- 끈이론 => 9차원,  M이론 => 10차원 --> 인간이 인지할 수 있는 3차원 외의 차원은 모두 아주 작은 공간 내에 말려있음 

 

- 머신러닝에서 사용하는 데이터의 차원수와 현실세계의 공간 차원수의 본질은 같음

- 저차원의 벡터를 기존의 고차원 특징으로 표현하는 것이 중요

- ex) 주성분분석, 선형 판별분석, 아이소맵, LLE. Laplacian Eigenmaps, Locality Preserving Projetion 

.

 

 

 

1.  주성분분석

- 비지도 차원 축소 알고리즘 

 

2. 선형 판별분석(Linear Discriminant Analysis, LDA)

- 1936년 로널드가 고안한 방법, 피셔 LDA라고 부름 

- 지도학습 알고리즘의 일조이나 동시에 자주 사용되는 차원 축소 알고리즘

- 클래스 사이의 거리를 최대화하는 동시에 클래스 내의 거리를 최소화  

 

 

cf) 주성분 분석과 선형 판별분석 차이점 

 

 

3. Isomap

 

4. LLE(Locally Linear Embedding) 

 

5. Laplacian Eigenmaps

 

 

6. t-SNE(t-distributed Stochastic Neighbor Embedding)

 

 

7. MDS(Multi-Dimensional Scaling)

 

 

 

cf) 오토인코더

- 비선형 처리가 가능하지만, 데이터 지역적 구조 제대로 표현 x 

 

cf) transductive 학습모델과 inductive 학습 모델

* transductive 학습모델

- 새로운 샘플을 처리할 능력이 없는 모델

 

* inductive 귀납적 학습 모델

- 새로운 샘플을 처리할 능력이 있는 모델 

 

 

<Reference> 

1. wordbe.tistory.com/entry/Manifold-Learning-IsoMap-LLE-t-SNE-%EC%84%A4%EB%AA%85

2. rpago.tistory.com/15 

3. 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함