1. 결정 트리 모델(Decision Tree Model) 머신 러닝 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만드는 것 규칙 노드(Decision Node)로 표시된 노드는 규칙조건이 되는 것이고, 리프노드(Leaf Node)로 표시된 노드는 결정된 클래스 값 또한 새로운 규칙을 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만드는 것. 2. 의사결정트리에서 데이터 불순도를 측정하는 방법? 지니인덱스(Gini Index) 엔트로피(Entropy) 분류 오류(Classification Error) 2.1 정보이득(Information Gain) - 엔트로피(Entropy) 의사 결정 학습에서 각 ..
통계기반 머신러닝으로 만든 학습기와 분류기? => 분류와 식별을 실행할 때 학습기 하나에서 원하는 성능을 낼 수 있도록 설계. ∴ 학습기 수가 적은 모델을 구축할 때가 많다. (사람이 학습기의 동작을 이해하려면 가능한 하 구조가 단순한 것이 바람직하기 때문 앙상블 방법은 분류에서 가장 각광을 받는 방법 중 중 하나 서로 다른/또는 같은 알고리즘을 단순히 결합한 형태도 있으나, 일반적으로 배깅(Bagging)과 부스팅(Boosting) 방식으로 나뉨 1.배깅(Bagging) – 일반적인 모델을 만드는데 집중 가중치 부여 X 배깅 알고리즘(랜덤 포레스트) ==> 여러 트리 모양 결합하여 생긴 결과 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과를 집계(Aggregating)하는 방법 대상 데이터로부터 복원 랜..
1. 시계열(Time series) 데이터란? 시간에서 순차적으로 (sequentially) 관측한 값들의 집합 독립변수(Independent variable)를 이용하여 종속변수(Dependent variable)를 예측하는 일반적인 기계학습 방법론에 대하여 시간을 독립변수로 사용한다는 특징 독립변수로 시간을 사용하는 특성때문에 분석에 있어서 일반적인 방법론들과는 다른 몇가지 고려가 필요 2. 시계열 자료 분석 방법 일변량 시계열 분석 - {Yt ; t = 1,2,..,T}만을 가지고 분석 회귀분석(계량경제) 방법, BOX-JENKINS 방법 수학적 이론 모형에 의존하고 시간에 따라 변동이 많은 (빠른) 시계열 자료에 적용 지수 평활법, 시계열 분해 방법 다소 직관적인 방법이며 시간에 따른 변동이 느린..
1. label encoding - 단순하게 레이블링 해주는 것 - 하지만 머신러닝시 가중치로 되어 데이터 정확도에 혼선을 줄 수 있음 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 from sklearn.preprocessing import LabelEncoder import pandas as pd import numpy as np array = np.array([["paris","paris","seoul"],["newyork","paris","seoul"],["seoul","paris","paris"],["seoul","paris","paris"]]) df = pd.DataFrame(array, columns = ['A','B','C']) ..