티스토리 뷰

0. Contextual Representation

- 문맥에 따른 다른 단어를 구별할 수 없다.

 

Word2vec이나 Glove같은 경우? 

- Open a bank(은행) account  & On the river bank(둑) ==> 같은 vector로 표현

 

Contextual Representations 경우?

- 문맥에 따라서 Contextual Representation이기 때문에 같은 bank라도 다른 의미로 인식 

 

1. ELMo(Embeddings from Language Model)

- LSTM으로 랭귀지 모델을 만든다

- backward & forward 를 각각 더하는것이기 때문에 완전한 양방향이라고 할 수 없다. 

 

 

 

2. OpenAI GPT

- Transformer 이해 필요 

 

 

 

3. BERT 

- 우리가 학습을 시키는 것이 불가능, 양이 어마어마함 -

- Masking을 시키면서 완전한 양방향을 이름

 

 

 

 

 

4. Korean BERT 

- 우리가 학습을 시키는 것이 불가능, 양이 어마어마함 

- ETRI에서 오픈(2019.6)

- 학습 데이터 : 신문 기사 및 백과사전 등 23GB의 대용량 텍슽으에 대해 47억개의 형태소를 사용하여 학습

- 두가지 버전으로 오픈 1. 형태소 분석 기반의 언어모델 2. 형태소 분석을 하지 않은 어절 기반의 언어모델 

 

 

 

<참고> Language Representation 흐름도

1. One hot encoding

2. Word2Vec - CBOW, Skip-Gram

3. Glove

4. FastText

5. Cove

6. ELMO 

7. GPT

8. BERT

9. GPT-2

10. ERNIE 1.0

11. XLNET

12. ERNIE 2.0 

13. ROBERTa

 

 

<출처> 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함