1. Albumentations란? Image Augmentation를 지원해주는 일종의 라이브러리다. [2]논문에 따르면 torchvision이나, Keras, imgaug보다 Albumentations이 빠른 속도를 지원해준다고 나와있다. 이때 숫자는 낮으면 낮을수록 좋다. [3]에 따르면 Albumentations의 장점은 1. fast, 2. Flexible, 3. Diverse 하다. 2. 설치방법? - 하단의 [1] 출처에 가면 PyPI 및 Conda 환경일때 어떻게 설치하는지 나와있다. 3. 사용방법 @rwightman의 github에서 발췌해왔다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30..
Wigner function에 대해서 찾아보다가.. Wigner quasiprobability distribution에 대해서 알게 되었다. 위키 백과에서는 "양자 역학에서 계의 위상 공간 위에 존재하는 함수 또는 준 확률분포"라고 명명하고 있다. (준 확률분포? 일반 확률분포와 달리 위그너 분포는 음의 값을 가질 수 있기 때문에 준 확률분포라고 한다) 과연 양자 역학이란건 무엇일까? 위키백과에 따르면 양자역학은 분자, 원자, 전자, 소립자와 미시적인 계의 현상을 다루는 즉, 작은 크기를 갖는 계의 현상을 연구하는 물리학의 분야라고 한다. 현대 물리학의 기초인 양자역학은 컴퓨터의 주요 부품인 반도체의 원리를 설명해 주는 등 과학기술, 철학, 문학, 예술 등 다방면에 중요한 영향을 미쳐 20세기 과학사에서..
1. 주파수, 신호, 특징추출의 정의 주파수 영역 분석 - 통신, 지질학, 원격탐사, 영상처리와 같은 영역에서 많이 사용된다. 신호란? - 변환ㅣ라고 하는 수학 연산자 쌍을 사용하여 시간 영역과 주파수 영역 사이에서 변환 특징추출? - 입력신호를 적합한 공간으로 변환하여 의미 있는 정보를 생산하는 과정 - 데이터 표현 구분성이 높아지면 높아질수록 결정 규칙 혹은 분류 성분 향상이 가능함 2. 신호 생성 및 전처리 (1) 스무딩과 잡음 제거 - 원치 않는 스파이크, 추세 및 이상값 제거 - 사비츠키-골레이 필터, 이동평균, 이동중앙값, 선형회귀 or 2차 회귀 사용하여 신호 스무딩 (2) 리샘플링 - 데시메이션(정수인자만큼 sample rate 감소) , 보간(정수 인자만큼 sample rate 증가) ,..
나이퀴스트 이론이란? 우선 나이퀴스트 이론을 알기 전에 디지털신호와 아날로그 신호에 대해서 알아야 한다. 아날로그 신호는 오리지널신호라고 생각하면 되는데, 디지털 신호로 바꾸기 위해서는 AD 컨버터로 샘플링을 하여 2진수로 변환하게 된다. 디지털 신호로 변환하기 때문에 디지털 매체에 저장이 가능하다. 하지만 아날로그 신호를 디지털 신호로 변환시에 신호를 충실하게 나타내려면 아날로그 파형의 Sample을 필요로 하게 된다. 위키 백과에 따르면 " "만약 신호가 대역제한(bandlimited)신호이고, 표본화 주파수가 신호의 대역의 두 배 이상이라면 표본으로부터 연속 시간 기저 대역 신호를 완전히 재구성할 수 있다." 라고 나타내어져 있다. 이 의미는 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에..
1. 확률 분포의 추정 - "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다" -> 데이터 분석의 가정 - 데이터의 표본으로부터 확률 변수의 분포를 알아내야 함. (1) 확률변수가 어떤 확률 분포를 따르는가, 데이터의 생성 원리나 데이터의 특성을 찾기 - 히스토그램을 그리거나 확률 분포의 모양 살펴보기 * 데이터가 0 or 1 => 베르누이분포 * 데이터 카테고리 값 => 카테고리분포 * 데이터는 0과 1사이의 실수 값 => 베타분포 * 데이터는 항상 0 또는 양수 => 로그정규분포, 감마분포, F분포, 카이제곱분포, 지수분포, 하프코시분포 등 * 데이터가 크기 제한이 없는 실수 => 정규분포, 스튜던트 t분포, 코시분포, 라플라스 분포 등 (2) 확률 분포의 종류 (Probability Distr..
모수 추정 방법론은 크게 세가지가 있다. 1. 최대 우도 추정법 2. 베이즈 추정법 3. 최대 가능도 추정법 0. 최대 우도 추정법 (Maximum Likelihood Estimation) 이란? - 머신러닝 알고리즘, Markov Random Field SVM .. 등 가장 기본이 되는 알고리즘 Q. 머신러닝에서 왜 가장 기본이 될까? A. 머신러닝자체가 주어진 학습 데이터를 가장 잘 표현하는 확률 모델을 설계하는 것 -> 즉 주어진 학습 데이터들을 가장 잘 표현하는 확률 모델의 모수 파라미터 $\theta$ 를 구하는 것이다. 1. 우도(Likeliehood)란? - 어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라면, 그러한 결과 E 가 나올 정도는 얼마..
1. Stochastic Gradient Descent 1.1 Batch Gradient Descent 1.2 Stochastic Gradient Descent 1.3 Mini-batch Gradient Descent 2. Better Gradient Descent Methods 2.1 Momentum 모멘텀 최적화는 이전 그래디언트가 얼마였는지를 상당히 중요하게 생각함. 매 반복에서 현재 그래디언트를 (학습률 η 를 곱한 후 ) 모멘텀벡터 m (momentum vector)에 더하고 이 값을 빼는 방식으로 가중치를 갱신한다. 그래디언트를 속도가 아니라 가속도로 사용한다. 일종의 마찰 저항을 표현하고 모멘텀이 너무 커지는 것을 막기 위해 알고리즘에 모멘텀(momentum)이라는 새로운 하이퍼 파라미터 β..
* 오버피팅과 언더피팅이란? * 오버피팅을 방지하기 위해서는? (1) Weight Sharing (2) 가중치 감소 (3) 조기종료 (4) Dropout (5) Batch Normalization 0. Regularization(일반화 기법) 모델의 복잡도를 낮춰서 Test 데이터에 대한 정확도를 높인다. Overfitting을 방지하기 위해서 1. Regularization Term 넣기 Weight Decay 1.1 L1 Regularization 0에 매우 가까운 대부분의 가중치 가장 중요한 입력의 작은 하위 집합을 선택 입력 잡음에 강함 $gamma$ : 비율 조정 1.2 L2 Regularization 최고 가중치에 불이익 일부 입력 만 많이 사용하지 않고 모든 입력을 약간 사용하도록 권장 L2..
딥러닝(Deep Learning) - CNN 최신 분류 아키텍쳐는 다음과같다. 1. AlexNet - 제프리 힌튼 & x팀이 설꼐 - 상위 5개의 오류율을 15.3%로 줄임, 학습속도를 높이기 위해 GPU 사용 2. VGG-16 - 옥스포드 VGG(Visual Geometry Group) 에서 사용 - 3x3 합성곱층을 기반으로 하는 단순한 아키텍쳐를 다른층에 겹겹히 쌓아 올린뒤 최대 풀링층으로 보냄 3. Inception - google net - 서로 다른 크기의 커널을 같은 수준에서 포괄게 결합하여 인셉션 층을 사용 4. ResNet - Microsoft Research Asia에서 소개한 residual net 5. MobileNet - 모바일과 임베디드 시스템에 적합하게 설꼐 - 네트워크 훈련에..
객체 검출 알고리즘과 코드 1. R-CNN(Regions of the convolutional neural network) - Girshick이 제안 - 몇개의 박스를 제안하고 박스 중 하나가 실측값과 일치하는지 확인 - we focused on two problems: (1) localizing objects with a deep network (2) training a high-capacity model with only a small quantity of annotated detection data. - Detection의 경우 이미지 내에서 object를 localizing 요구 -> 해결방법 1. sliding window 방식 적용 2. high spartial resolution 유지하기 위..