티스토리 뷰
1. 서론
Deep Neural Networks
- 컴퓨터 비전, 자연어 처리, 음성 인식, 강화 학습에서 수많은 기계 학습 작업에 상당한 도움
- 역 전파를 통한 그래디언트 기반 최적화(Rumelhart et al., 1985)
- 하지만, 테이블 형식 데이터에 대한 머신 러닝은 여전히 DNN 파워의 이점을 충분히 활용하지 못함
* GBDT (Gradient boosted Decision Tree) 최신 기술
- GBDT (Friedman, 2001) , Random Forest (Barandiaran, 1998) 의사결정트리 앙상블
- XGBoost (Chen & Guestrin, 2016), LightGBM (Ke et al., 2017), CatBoost (Prokhorenkova et al., 2018)
이 3가지 구현은 대부분의 작업에서 성능이 그렇게 다르지 않음
* CatBoost차이점
- ODT (Olivious Decision Tree)를 약한 학습자로 사용
- NODE 아키텍처의 중요한 요소
- 불명확 한 의사 결정 트리. 모호한 의사 결정 트리는 동일한 깊이의 모든 내부 노드에서 동일한 분할 기능 및 분할 임계 값을 사용하도록 제한되는 일반적인 깊이 d 트리
- 모호한 의사 결정 트리는 동일한 깊이의 모든 내부 노드에서 동일한 분할 기능 및 분할 임계 값을 사용하도록 제한되는 일반적인 깊이 d 트리, 제약 조건은 기본적으로 ODT를 d 분할의 가능한 모든 조합에 해당하는 2d 항목이 있는 테이블로 표현할 수 있게 함 (Lou & Obukhov, 2017). 물론 위의 제약으로 인해 ODT는 제약없는 의사 결정 트리에 비해 학습자가 훨씬 약함 그러나 앙상블에 사용되는 경우 이러한 나무는 과적 합이 적으며 그래디언트 부스팅과 잘 시너지 효과가있는 것으로 나타났습니다
- ODT의 추론은 매우 효율적
- CatBoost? 모호한 의사 결정 트리에 대해 gradient boosing 수행하여 추론 효율적으로 만들고, 과적합에 매우 강함
- CatBoost를 일반화하여 분할 기능 선택 및 의사 결정 트리 Routing 차별화
* Differentiable trees.
- 트리기반 접근 방식 단점 -> end-to-end optimization 허용하지 않음, Tree 구성을 위해 local optimization pro cedure 수행
- 여러 문제 해결 위해 전체 트리 기능, 트리 라우팅 만들기 위해 내부 트리 노드에서 ”soften” decision functions을 soften함 -> entmax 변환 (Peters et al., 2019)
* Entmax란?
- 실수 값 점수 벡터를 이산 확률 분포에 매핑
- 대부분의 확률이 정확히 0 인 희소 확률 분포를 생성 할 수 있음 -> entmax가 내부 트리 노드에서 미분 가능한 분할 결정 구성을 허용하는 모델에서 적절한 유도 편향이라고 주장
- entmax는 데이터 기능의 작은 하위 집합 (기존 의사 결정 트리에서와 같이 최대 하나)을 기반으로 분할 결정을 학습하여 다른 사람의 원하지 않는 영향을 피할 수 있음
- 특징 선택에 entmax를 사용하면 아래 섹션 3에 설명 된대로 사전 계산 된 희소 선택 벡터를 사용하여 계산적으로 효율적인 추론이 가능
* Tabular 형식 연구
- Zhou & Feng, 2017; Yang et al., 2018; Miller et al., 2017; Lay et al., 2018; Feng et al., 2018; Ke et al., 2018
2. Neural Oblivious Decision Ensembles(NODE) 소개
- CatBoost 패키지 (Prokhorenkova et al., 2018)에서 부분적으로 영감, 테이블 형식 데이터 세트에서 최첨단 성능 제공
- Deep Gradient boosted Decision Tree와 유사한 다중 아키텍쳐 구성
- 기존 딥런닝 모델과 유사한 계층 구조를 가짐, back propagation에 의한 end to end 구성
(1) DIFFERENTIABLE OBLIVIOUS DECISION TREES
(2) GOING DEEPER WITH THE NODE ARCHITECTURE
(3) TRAINING
* mGBDT (Feng et al., 2018)
* DeepForest (Zhou & Feng, 2017)
- 분류 문제에만 가능
<출처>
3. www.kaggle.com/gogo827jz/moa-neural-oblivious-decision-ensembles-tf-keras
4.
'인공지능 > 머신러닝' 카테고리의 다른 글
[ML Algorithm] 통계기반분석 (0) | 2020.12.12 |
---|---|
[ML Algorithm] SoftMax Function(소프트맥스 함수) (0) | 2020.10.10 |
[Math] 데이터 분석에 있어서의 확률 분포와 모수 추정 (0) | 2020.06.13 |
[Math] 모수 추정 방법론인 최대 우도 추정법 (Maximum Likelihood Estimation)이란? (0) | 2020.06.11 |
[ML Algorithm] StratifiedKFold / StratifiedShuffleSplit 차이 (0) | 2020.06.03 |