티스토리 뷰

1. SoftMax 함수가 왜 필요한가? 

- 하나의 샘플 데이터에 대한 예측 값으로 모든 가능한 정답지에 대해서 정답일 확률의 합이 1이 되도록하는 것 

- 즉 소프트맥스 함수란? 분류해야하는 정답지(클래스)의 총 개수를 k라고 할때, k 차원의 벡터를 입력 받아 각 클래스에 대한 확률을 추정하는것. 

- $k$차원의 벡터에서 i번째 원소를 $z_i$, i번째 클래스가 정답인 확률 $p_i$라고 하였을 때 소프트 맥스 함수 $p_i$는 다음과 같이 정의

 

$p_i =  \frac{e^z_i}{\sum e^z_j  }$

 

2. SoftMax 함수 종류

• Softmax

    우리가 알고 있는 일반적인 Softmax 함수, 모든 항목의 가중치가 0이 아닌 고밀도 결정 규칙을 학습 


• Gumbel-Softmax (Jang et al., 2016)

- 세트에서 단일 요소를 확률 적으로 샘플링하는 방법을 학습

-  언어모델, 어텐션 매커니즘, 강화학습 등에서 이산확률변수 모델 필요성, 하지만 NN을 가지고 이산확률변수를 표현하는것은 어려움, 역전파 알고리즘으로 미분 불가능인 레이어 학습 할 수 없고 몬테카를로 방식으로 이산적인 연산의 gradient 추청할 수 있지만 큰 varience 인해 학습 불안정하기 때문에 Gumble Softmax 필요


• Sparsemax (Martins & Astudillo, 2016)

- 몇 가지 항목만있는 희소 결정 규칙을 학습, 0이 아닌 가중치가 있음 

- sparse version의 softmax이며 대부분의 확

 


• Entmax (Peters et al., 2019)

  - sparsemax와 softmax를 모두 일반화

  - sparse 학습 

  -  결정 규칙이지만 sparsemax보다 부드럽기 때문에 그래디언트 기반 최적화에 더 적합

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함