변수선택 (Variable Selection) 변수 선택이란? 종속변수(Y)에 유의미한 영향을 미칠 것으로 생각되는 독립변수(X)를 선택하는 과정 변수 선택 방법 (1) 전진 선택법 (forward selection) (2) 후진 제거법 (backward elimination) (3) 단계적 방법 (stepwise selection) 변수 선택 방법(모델 판단 방법) (1) AIC(Akaike Information Criterion) AIC = -2log(likelihood) + 2p p: 변수의 갯수, n: 데이터 갯수 - 주어진 데이터에 대한 통계 모델의 상대적인 품질을 평가하는 기준 - 주어진 데이터에서 최고의 모형을 (2) BIC(Bayes Information Criterion) BIC = -2..
클래스 불균형 - 어떤 데이터에서 각 클래스가 가지고 있는 데이터의 양에 큰 차이가 있는 경우를 보통 클래스 불균형이 있다고 함 - 불균형 데이터를 사용하여 모델링 할 경우 관측치 수가 많은 데이터를 중심으로 학습이 진행되기 때문에 관측치가 적은 데이터에 대한 학습은 제대로 이뤄지지 않은 가능성 큼 ex) 신용사기 문제, 의학적 진단 등.. -> 불균형을 해결하는 것이 중요 1. Undersampling(과소표집) - 무작위로 정상 데이터를 일부만 선택해 유의한 데이터만 남기는 방법 - 많은 클래스의 데이터를 적은 클래스의 수만큼 감소시킴 2. Oversampling(과대표집) - 사전에 정해진 기준 또는 기준없이 무작위로 소수 데이터를 복제하는 방법 - 적은 클래스의 데이터를 많은 클래스의 수만큼 증가..
통계학 - 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는 데 필요한 이론과 방법을 과학적으로 제시하는 학문 - 통계는 데이터를 다루는 목적에 따라 2가지 구분 가능 1. 기술통계분석(Descriptive Statistics) - 기초적인 분석 방법, 데이터에 분석하기 앞서 데이터에 대한 통계적 수치를 탐색 - 사분위값, 평균, 최솟값, 최댓값 등의 통계결과 반환 - 자료의 형태? 질적척도(명목척도, 서열척도) / 양적척도(등간척도, 비율척도) 1.1 표본 추출 - 모집단의부분만 선택해 조사, 분석하여 전체 집단의 특성을 추정하는 통꼐조사방법 - 모수? 관심을 갖고 있는 모집단 관측치의 대푯값 , 모비율, 모평균, 모총계.. - 통계량? 표..
1. SoftMax 함수가 왜 필요한가? - 하나의 샘플 데이터에 대한 예측 값으로 모든 가능한 정답지에 대해서 정답일 확률의 합이 1이 되도록하는 것 - 즉 소프트맥스 함수란? 분류해야하는 정답지(클래스)의 총 개수를 k라고 할때, k 차원의 벡터를 입력 받아 각 클래스에 대한 확률을 추정하는것. - $k$차원의 벡터에서 i번째 원소를 $z_i$, i번째 클래스가 정답인 확률 $p_i$라고 하였을 때 소프트 맥스 함수 $p_i$는 다음과 같이 정의 $p_i = \frac{e^z_i}{\sum e^z_j }$ 2. SoftMax 함수 종류 • Softmax 우리가 알고 있는 일반적인 Softmax 함수, 모든 항목의 가중치가 0이 아닌 고밀도 결정 규칙을 학습 • Gumbel-Softmax (Jang e..
1. 서론 Deep Neural Networks - 컴퓨터 비전, 자연어 처리, 음성 인식, 강화 학습에서 수많은 기계 학습 작업에 상당한 도움 - 역 전파를 통한 그래디언트 기반 최적화(Rumelhart et al., 1985) - 하지만, 테이블 형식 데이터에 대한 머신 러닝은 여전히 DNN 파워의 이점을 충분히 활용하지 못함 * GBDT (Gradient boosted Decision Tree) 최신 기술 - GBDT (Friedman, 2001) , Random Forest (Barandiaran, 1998) 의사결정트리 앙상블 - XGBoost (Chen & Guestrin, 2016), LightGBM (Ke et al., 2017), CatBoost (Prokhorenkova et al...
1. 확률 분포의 추정 - "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다" -> 데이터 분석의 가정 - 데이터의 표본으로부터 확률 변수의 분포를 알아내야 함. (1) 확률변수가 어떤 확률 분포를 따르는가, 데이터의 생성 원리나 데이터의 특성을 찾기 - 히스토그램을 그리거나 확률 분포의 모양 살펴보기 * 데이터가 0 or 1 => 베르누이분포 * 데이터 카테고리 값 => 카테고리분포 * 데이터는 0과 1사이의 실수 값 => 베타분포 * 데이터는 항상 0 또는 양수 => 로그정규분포, 감마분포, F분포, 카이제곱분포, 지수분포, 하프코시분포 등 * 데이터가 크기 제한이 없는 실수 => 정규분포, 스튜던트 t분포, 코시분포, 라플라스 분포 등 (2) 확률 분포의 종류 (Probability Distr..
모수 추정 방법론은 크게 세가지가 있다. 1. 최대 우도 추정법 2. 베이즈 추정법 3. 최대 가능도 추정법 0. 최대 우도 추정법 (Maximum Likelihood Estimation) 이란? - 머신러닝 알고리즘, Markov Random Field SVM .. 등 가장 기본이 되는 알고리즘 Q. 머신러닝에서 왜 가장 기본이 될까? A. 머신러닝자체가 주어진 학습 데이터를 가장 잘 표현하는 확률 모델을 설계하는 것 -> 즉 주어진 학습 데이터들을 가장 잘 표현하는 확률 모델의 모수 파라미터 $\theta$ 를 구하는 것이다. 1. 우도(Likeliehood)란? - 어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라면, 그러한 결과 E 가 나올 정도는 얼마..
1. StratifiedKFold : 두 배열을 섞지 만 각 행을 레이블로 유지합니다. 2. StratifiedKFOld + Shuffle : 교차 검증 전에 두 배열을 섞습니다. 따라서 각 행은 더 이상 해당 레이블에 연결되지 않습니다. 그렇기 때문에 정확도가 1에 비해 나쁩니다. 3. StratifiedShuffleSplit : 배열이 이미 2만큼 섞여서 더 이상 행과 레이블 사이에 링크가 없기 때문에 정확도는 여전히 나쁘고 2와 같습니다. 그러나 "독립형"으로 실행했을 때 정확도는 1만큼 좋았습니다. 따라서 기본적으로 1과 3은 동일합니다. 1. stackoverflow.com/questions/37635460/stratifiedkfold-vs-stratifiedshufflesplit-vs-stra..
1. Tree Model 트리모델? 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 규칙을 만드는 것 데이텅를 적절한 분류 기준값에 따라 몇개의 소집단으로 나누는 과정 데이터를 어떤 기준을 바탕으로 분류 기준값을 정의하는지가 알고리즘의 성능에 큰 영향을 미침 정지규칙? 더이상 트리의 분리가 일어나지 않게 하는 규칙 가지치기? 불필요한 가지를 제거하는 것, 나무의 크기가 곧 모형의 복잡도, 모형이 너무 복잡할 경우 과적합 발생할 수 있고 적절한 규칙을 발견하기가 힘듬, 검증용 데이터를 활용해 예측 정확도 산출 , 타당성 검토 필요 2. Tree Model 장단점 1. 이상치와 노이즈에 큰 영향을 받지 않음 2. 순서, 연속형 변수는 단지 순위만 영향 = 이상치에 민감하지 않음 3. 비 모수적..
다음 포스팅은 "XAI 설명가능한 인공지능, 인공지능을 해부하다" 책을 읽고 정리한 내용을 포스팅합니다. 0. XAI의 해석가능성 - XAI의 핵심? 해석가능한지? - 해석가능성 = 왜 해당모델을 신뢰해야하는지, 아니면 하지 말아야하는지, 모델이 왜 특정 결정을 했는지, 어떤 결과가 예상되는지 판단하는 과정 1. 피처 중요도(Feature Importance, Permutation Importance) - 데이터의 피처가 알고리즘의 정확한 분류에 얼마나 큰 영향을 미치는지 분석하는 기법 - 특정 피처의 값을 임의의 값으로 치환했을 때 원래 데이터보다 예측 에러가 얼마나 더 커지는지 측정 - 즉! 피처 중요도가 피처 각각을 변형하는 방식으로 머신러닝 결과 해석 ex) 한 피처 데이터를 변형했을 때 모델 예..