변수선택 (Variable Selection) 변수 선택이란? 종속변수(Y)에 유의미한 영향을 미칠 것으로 생각되는 독립변수(X)를 선택하는 과정 변수 선택 방법 (1) 전진 선택법 (forward selection) (2) 후진 제거법 (backward elimination) (3) 단계적 방법 (stepwise selection) 변수 선택 방법(모델 판단 방법) (1) AIC(Akaike Information Criterion) AIC = -2log(likelihood) + 2p p: 변수의 갯수, n: 데이터 갯수 - 주어진 데이터에 대한 통계 모델의 상대적인 품질을 평가하는 기준 - 주어진 데이터에서 최고의 모형을 (2) BIC(Bayes Information Criterion) BIC = -2..
클래스 불균형 - 어떤 데이터에서 각 클래스가 가지고 있는 데이터의 양에 큰 차이가 있는 경우를 보통 클래스 불균형이 있다고 함 - 불균형 데이터를 사용하여 모델링 할 경우 관측치 수가 많은 데이터를 중심으로 학습이 진행되기 때문에 관측치가 적은 데이터에 대한 학습은 제대로 이뤄지지 않은 가능성 큼 ex) 신용사기 문제, 의학적 진단 등.. -> 불균형을 해결하는 것이 중요 1. Undersampling(과소표집) - 무작위로 정상 데이터를 일부만 선택해 유의한 데이터만 남기는 방법 - 많은 클래스의 데이터를 적은 클래스의 수만큼 감소시킴 2. Oversampling(과대표집) - 사전에 정해진 기준 또는 기준없이 무작위로 소수 데이터를 복제하는 방법 - 적은 클래스의 데이터를 많은 클래스의 수만큼 증가..
통계학 - 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는 데 필요한 이론과 방법을 과학적으로 제시하는 학문 - 통계는 데이터를 다루는 목적에 따라 2가지 구분 가능 1. 기술통계분석(Descriptive Statistics) - 기초적인 분석 방법, 데이터에 분석하기 앞서 데이터에 대한 통계적 수치를 탐색 - 사분위값, 평균, 최솟값, 최댓값 등의 통계결과 반환 - 자료의 형태? 질적척도(명목척도, 서열척도) / 양적척도(등간척도, 비율척도) 1.1 표본 추출 - 모집단의부분만 선택해 조사, 분석하여 전체 집단의 특성을 추정하는 통꼐조사방법 - 모수? 관심을 갖고 있는 모집단 관측치의 대푯값 , 모비율, 모평균, 모총계.. - 통계량? 표..
1. SoftMax 함수가 왜 필요한가? - 하나의 샘플 데이터에 대한 예측 값으로 모든 가능한 정답지에 대해서 정답일 확률의 합이 1이 되도록하는 것 - 즉 소프트맥스 함수란? 분류해야하는 정답지(클래스)의 총 개수를 k라고 할때, k 차원의 벡터를 입력 받아 각 클래스에 대한 확률을 추정하는것. - $k$차원의 벡터에서 i번째 원소를 $z_i$, i번째 클래스가 정답인 확률 $p_i$라고 하였을 때 소프트 맥스 함수 $p_i$는 다음과 같이 정의 $p_i = \frac{e^z_i}{\sum e^z_j }$ 2. SoftMax 함수 종류 • Softmax 우리가 알고 있는 일반적인 Softmax 함수, 모든 항목의 가중치가 0이 아닌 고밀도 결정 규칙을 학습 • Gumbel-Softmax (Jang e..
1. 서론 Deep Neural Networks - 컴퓨터 비전, 자연어 처리, 음성 인식, 강화 학습에서 수많은 기계 학습 작업에 상당한 도움 - 역 전파를 통한 그래디언트 기반 최적화(Rumelhart et al., 1985) - 하지만, 테이블 형식 데이터에 대한 머신 러닝은 여전히 DNN 파워의 이점을 충분히 활용하지 못함 * GBDT (Gradient boosted Decision Tree) 최신 기술 - GBDT (Friedman, 2001) , Random Forest (Barandiaran, 1998) 의사결정트리 앙상블 - XGBoost (Chen & Guestrin, 2016), LightGBM (Ke et al., 2017), CatBoost (Prokhorenkova et al...
1. 파이토치 모델 구현 하는 법 지금까지 텐서플로우, 케라스만 사용하다가 이미지 디텍션을 사용하면서 파이토치를 사용할 기회가 생겼다. 하지만 이게.. 굉장히 쉬운일이 아니었다. 파이토치의 대부분의 구현체는 대부분 모델을 생성할 때 클래스를 사용하고 있기 때문에 텐서플로우와 다르다. 너무 정형화 되어 있어서.. 끼워맞추기이긴 하지만 익숙해지면 쉬워지지 않을까라는 생각에 계속 하고 있다. pytorch에서는 데이터셋을 더 쉽게 다룰 수 있도록 다음과 같은 도구를 제공한다. torch.utils.data.Dataset torch.utils.data.DataLoader 2. 기본적인 구조 2.1 Dataset 1 2 3 4 5 6 class datasetName(torch.utils.data.Dataset):..
1. Albumentations란? Image Augmentation를 지원해주는 일종의 라이브러리다. [2]논문에 따르면 torchvision이나, Keras, imgaug보다 Albumentations이 빠른 속도를 지원해준다고 나와있다. 이때 숫자는 낮으면 낮을수록 좋다. [3]에 따르면 Albumentations의 장점은 1. fast, 2. Flexible, 3. Diverse 하다. 2. 설치방법? - 하단의 [1] 출처에 가면 PyPI 및 Conda 환경일때 어떻게 설치하는지 나와있다. 3. 사용방법 @rwightman의 github에서 발췌해왔다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30..
1. 확률 분포의 추정 - "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다" -> 데이터 분석의 가정 - 데이터의 표본으로부터 확률 변수의 분포를 알아내야 함. (1) 확률변수가 어떤 확률 분포를 따르는가, 데이터의 생성 원리나 데이터의 특성을 찾기 - 히스토그램을 그리거나 확률 분포의 모양 살펴보기 * 데이터가 0 or 1 => 베르누이분포 * 데이터 카테고리 값 => 카테고리분포 * 데이터는 0과 1사이의 실수 값 => 베타분포 * 데이터는 항상 0 또는 양수 => 로그정규분포, 감마분포, F분포, 카이제곱분포, 지수분포, 하프코시분포 등 * 데이터가 크기 제한이 없는 실수 => 정규분포, 스튜던트 t분포, 코시분포, 라플라스 분포 등 (2) 확률 분포의 종류 (Probability Distr..
모수 추정 방법론은 크게 세가지가 있다. 1. 최대 우도 추정법 2. 베이즈 추정법 3. 최대 가능도 추정법 0. 최대 우도 추정법 (Maximum Likelihood Estimation) 이란? - 머신러닝 알고리즘, Markov Random Field SVM .. 등 가장 기본이 되는 알고리즘 Q. 머신러닝에서 왜 가장 기본이 될까? A. 머신러닝자체가 주어진 학습 데이터를 가장 잘 표현하는 확률 모델을 설계하는 것 -> 즉 주어진 학습 데이터들을 가장 잘 표현하는 확률 모델의 모수 파라미터 $\theta$ 를 구하는 것이다. 1. 우도(Likeliehood)란? - 어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라면, 그러한 결과 E 가 나올 정도는 얼마..
1. Stochastic Gradient Descent 1.1 Batch Gradient Descent 1.2 Stochastic Gradient Descent 1.3 Mini-batch Gradient Descent 2. Better Gradient Descent Methods 2.1 Momentum 모멘텀 최적화는 이전 그래디언트가 얼마였는지를 상당히 중요하게 생각함. 매 반복에서 현재 그래디언트를 (학습률 η 를 곱한 후 ) 모멘텀벡터 m (momentum vector)에 더하고 이 값을 빼는 방식으로 가중치를 갱신한다. 그래디언트를 속도가 아니라 가속도로 사용한다. 일종의 마찰 저항을 표현하고 모멘텀이 너무 커지는 것을 막기 위해 알고리즘에 모멘텀(momentum)이라는 새로운 하이퍼 파라미터 β..