* 오버피팅과 언더피팅이란? * 오버피팅을 방지하기 위해서는? (1) Weight Sharing (2) 가중치 감소 (3) 조기종료 (4) Dropout (5) Batch Normalization 0. Regularization(일반화 기법) 모델의 복잡도를 낮춰서 Test 데이터에 대한 정확도를 높인다. Overfitting을 방지하기 위해서 1. Regularization Term 넣기 Weight Decay 1.1 L1 Regularization 0에 매우 가까운 대부분의 가중치 가장 중요한 입력의 작은 하위 집합을 선택 입력 잡음에 강함 $gamma$ : 비율 조정 1.2 L2 Regularization 최고 가중치에 불이익 일부 입력 만 많이 사용하지 않고 모든 입력을 약간 사용하도록 권장 L2..
딥러닝(Deep Learning) - CNN 최신 분류 아키텍쳐는 다음과같다. 1. AlexNet - 제프리 힌튼 & x팀이 설꼐 - 상위 5개의 오류율을 15.3%로 줄임, 학습속도를 높이기 위해 GPU 사용 2. VGG-16 - 옥스포드 VGG(Visual Geometry Group) 에서 사용 - 3x3 합성곱층을 기반으로 하는 단순한 아키텍쳐를 다른층에 겹겹히 쌓아 올린뒤 최대 풀링층으로 보냄 3. Inception - google net - 서로 다른 크기의 커널을 같은 수준에서 포괄게 결합하여 인셉션 층을 사용 4. ResNet - Microsoft Research Asia에서 소개한 residual net 5. MobileNet - 모바일과 임베디드 시스템에 적합하게 설꼐 - 네트워크 훈련에..
객체 검출 알고리즘과 코드 1. R-CNN(Regions of the convolutional neural network) - Girshick이 제안 - 몇개의 박스를 제안하고 박스 중 하나가 실측값과 일치하는지 확인 - we focused on two problems: (1) localizing objects with a deep network (2) training a high-capacity model with only a small quantity of annotated detection data. - Detection의 경우 이미지 내에서 object를 localizing 요구 -> 해결방법 1. sliding window 방식 적용 2. high spartial resolution 유지하기 위..
kaggle을 하면서 다양한 evaluation 종류를 정리해보았다. 1. macro F1 score - macro-average F1 score = macro F1 score이라고 줄여서 부른다. - multi-classification Imbalanced Multi-class Classification의 경우 사용된다. - 즉 macro f1 score은 classification에서 각 class가 평균적으로 잘 분류하는지 확인할때 사용한다. cf. micro average f1 score classification에서의 각 class의 사이즈가 다를때, 사용한다. (출처) https://www.kaggle.com/c/liverpool-ion-switching/overview/evaluation h..
1. StratifiedKFold : 두 배열을 섞지 만 각 행을 레이블로 유지합니다. 2. StratifiedKFOld + Shuffle : 교차 검증 전에 두 배열을 섞습니다. 따라서 각 행은 더 이상 해당 레이블에 연결되지 않습니다. 그렇기 때문에 정확도가 1에 비해 나쁩니다. 3. StratifiedShuffleSplit : 배열이 이미 2만큼 섞여서 더 이상 행과 레이블 사이에 링크가 없기 때문에 정확도는 여전히 나쁘고 2와 같습니다. 그러나 "독립형"으로 실행했을 때 정확도는 1만큼 좋았습니다. 따라서 기본적으로 1과 3은 동일합니다. 1. stackoverflow.com/questions/37635460/stratifiedkfold-vs-stratifiedshufflesplit-vs-stra..
1. Tree Model 트리모델? 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 규칙을 만드는 것 데이텅를 적절한 분류 기준값에 따라 몇개의 소집단으로 나누는 과정 데이터를 어떤 기준을 바탕으로 분류 기준값을 정의하는지가 알고리즘의 성능에 큰 영향을 미침 정지규칙? 더이상 트리의 분리가 일어나지 않게 하는 규칙 가지치기? 불필요한 가지를 제거하는 것, 나무의 크기가 곧 모형의 복잡도, 모형이 너무 복잡할 경우 과적합 발생할 수 있고 적절한 규칙을 발견하기가 힘듬, 검증용 데이터를 활용해 예측 정확도 산출 , 타당성 검토 필요 2. Tree Model 장단점 1. 이상치와 노이즈에 큰 영향을 받지 않음 2. 순서, 연속형 변수는 단지 순위만 영향 = 이상치에 민감하지 않음 3. 비 모수적..
다음 포스팅은 "XAI 설명가능한 인공지능, 인공지능을 해부하다" 책을 읽고 정리한 내용을 포스팅합니다. 0. XAI의 해석가능성 - XAI의 핵심? 해석가능한지? - 해석가능성 = 왜 해당모델을 신뢰해야하는지, 아니면 하지 말아야하는지, 모델이 왜 특정 결정을 했는지, 어떤 결과가 예상되는지 판단하는 과정 1. 피처 중요도(Feature Importance, Permutation Importance) - 데이터의 피처가 알고리즘의 정확한 분류에 얼마나 큰 영향을 미치는지 분석하는 기법 - 특정 피처의 값을 임의의 값으로 치환했을 때 원래 데이터보다 예측 에러가 얼마나 더 커지는지 측정 - 즉! 피처 중요도가 피처 각각을 변형하는 방식으로 머신러닝 결과 해석 ex) 한 피처 데이터를 변형했을 때 모델 예..
다음 포스팅은 "XAI 설명가능한 인공지능, 인공지능을 해부하다" 책을 읽고 정리한 내용을 포스팅합니다. 1. XAI란? - 설명 가능한 의사 결정 체계 - 1975년 처음 등장 - 부정확한 추론 과정을 확률적으로 모델링하는 방법 -> 이 규칙을 기반으로 조건부 확률 근삿값(Rule-based conditional probabiity approximation) 방식 개발, 의사 결정 과정을 확률적이고 체계적으로 정돈하는 방식 - 설명가능한 인공지능은 2004년이 되서야 "XAI(Explainable Aritificial Intelligence)"라는 전문용어로 자리 잡음 - 반렌트, 피셔, 만쿠소가 제시 - "컴퓨터 시스템이나 인공지능 시스템은 복잡해지는 반면에 그것들의 자기 설명 기능에는 발전이 없다!..
- 항상 헷갈려서 정의... 1. 벡터란? - 수학에서는? Vector Space의 원소가 바로 벡터 - 벡터 공간의 종류가 엄청 다양하기 때문에 물리적 직관을 함부로 적용하기 힘듬 - 함수들로 이루어진 벡터공간도 존재하며, 벡터 공간으로 이루어진 벡터 공간도 존재 2. 백터의 내적(vector inner product) - dot product = scalar product - 효율 2.1 속성(property) - Commutative - Distributive over vector addiction - Bilinear - Scalar multiplication - Orthogonal - No cancellation - Product Rule 2.2 Application to the law of co..
0. Introduction Ethereum(이더리움)? = 스마트 계약을 수행할 수 있는 분산형 플랫폼 이때 스마트 계약이란? 고장, 검열, 부정이나 제 3자에 의한 방해가 전혀없이 프로그래밍 대로 동작하는 app Ether - 이더리움은 "ether"이라는 단위 사용 - 가장 작은단위 "wei", 1ether은 10wei Gas - Ether은 송금과 계약을 실행하기 위해서는 수수료와 이더리움 지불 필요 -> Gas 1. Geth - Geth = go-ethereum - Go 언어로 만들어진 클라이언트 1. https://www.slideshare.net/xyrho123/blockchain-study3-geth