[ML Algorithm] Neural Oblivious Decision Ensembles(NODE)

티스토리 뷰

인공지능/머신러닝

[ML Algorithm] Neural Oblivious Decision Ensembles(NODE)

RosyPark 2020. 10. 5. 21:30

1. 서론

Deep Neural Networks

- 컴퓨터 비전, 자연어 처리, 음성 인식, 강화 학습에서 수많은 기계 학습 작업에 상당한 도움

- 역 전파를 통한 그래디언트 기반 최적화(Rumelhart et al., 1985)

- 하지만, 테이블 형식 데이터에 대한 머신 러닝은 여전히 DNN 파워의 이점을 충분히 활용하지 못함

* GBDT (Gradient boosted Decision Tree) 최신 기술

- GBDT (Friedman, 2001) , Random Forest (Barandiaran, 1998) 의사결정트리 앙상블

- XGBoost (Chen & Guestrin, 2016), LightGBM (Ke et al., 2017), CatBoost (Prokhorenkova et al., 2018)

이 3가지 구현은 대부분의 작업에서 성능이 그렇게 다르지 않음

* CatBoost차이점

- ODT (Olivious Decision Tree)를 약한 학습자로 사용

- NODE 아키텍처의 중요한 요소

- 불명확 한 의사 결정 트리. 모호한 의사 결정 트리는 동일한 깊이의 모든 내부 노드에서 동일한 분할 기능 및 분할 임계 값을 사용하도록 제한되는 일반적인 깊이 d 트리

- 모호한 의사 결정 트리는 동일한 깊이의 모든 내부 노드에서 동일한 분할 기능 및 분할 임계 값을 사용하도록 제한되는 일반적인 깊이 d 트리, 제약 조건은 기본적으로 ODT를 d 분할의 가능한 모든 조합에 해당하는 2d 항목이 있는 테이블로 표현할 수 있게 함 (Lou & Obukhov, 2017). 물론 위의 제약으로 인해 ODT는 제약없는 의사 결정 트리에 비해 학습자가 훨씬 약함 그러나 앙상블에 사용되는 경우 이러한 나무는 과적 합이 적으며 그래디언트 부스팅과 잘 시너지 효과가있는 것으로 나타났습니다

- ODT의 추론은 매우 효율적

- CatBoost? 모호한 의사 결정 트리에 대해 gradient boosing 수행하여 추론 효율적으로 만들고, 과적합에 매우 강함

- CatBoost를 일반화하여 분할 기능 선택 및 의사 결정 트리 Routing 차별화

* Differentiable trees.

- 트리기반 접근 방식 단점 -> end-to-end optimization 허용하지 않음, Tree 구성을 위해 local optimization pro cedure 수행

- 여러 문제 해결 위해 전체 트리 기능, 트리 라우팅 만들기 위해 내부 트리 노드에서 ”soften” decision functions을 soften함 -> entmax 변환 (Peters et al., 2019)

* Entmax란?

- 실수 값 점수 벡터를 이산 확률 분포에 매핑

- 대부분의 확률이 정확히 0 인 희소 확률 분포를 생성 할 수 있음 -> entmax가 내부 트리 노드에서 미분 가능한 분할 결정 구성을 허용하는 모델에서 적절한 유도 편향이라고 주장

- entmax는 데이터 기능의 작은 하위 집합 (기존 의사 결정 트리에서와 같이 최대 하나)을 기반으로 분할 결정을 학습하여 다른 사람의 원하지 않는 영향을 피할 수 있음

- 특징 선택에 entmax를 사용하면 아래 섹션 3에 설명 된대로 사전 계산 된 희소 선택 벡터를 사용하여 계산적으로 효율적인 추론이 가능

* Tabular 형식 연구

- Zhou & Feng, 2017; Yang et al., 2018; Miller et al., 2017; Lay et al., 2018; Feng et al., 2018; Ke et al., 2018

2. Neural Oblivious Decision Ensembles(NODE) 소개

- CatBoost 패키지 (Prokhorenkova et al., 2018)에서 부분적으로 영감, 테이블 형식 데이터 세트에서 최첨단 성능 제공

- Deep Gradient boosted Decision Tree와 유사한 다중 아키텍쳐 구성

- 기존 딥런닝 모델과 유사한 계층 구조를 가짐, back propagation에 의한 end to end 구성

(1) DIFFERENTIABLE OBLIVIOUS DECISION TREES

(2) GOING DEEPER WITH THE NODE ARCHITECTURE

(3) TRAINING

* mGBDT (Feng et al., 2018)

* DeepForest (Zhou & Feng, 2017)

- 분류 문제에만 가능

<출처>

1. github.com/Qwicen/node

2. arxiv.org/abs/1909.06312

3. www.kaggle.com/gogo827jz/moa-neural-oblivious-decision-ensembles-tf-keras

'인공지능 > 머신러닝' 카테고리의 다른 글

[ML Algorithm] 통계기반분석 (0)	2020.12.12
[ML Algorithm] SoftMax Function(소프트맥스 함수) (0)	2020.10.10
[Math] 데이터 분석에 있어서의 확률 분포와 모수 추정 (0)	2020.06.13
[Math] 모수 추정 방법론인 최대 우도 추정법 (Maximum Likelihood Estimation)이란? (0)	2020.06.11
[ML Algorithm] StratifiedKFold / StratifiedShuffleSplit 차이 (0)	2020.06.03

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

Rosy's Artificial Intelligence Blog

티스토리 뷰