티스토리 뷰
0. Contextual Representation
- 문맥에 따른 다른 단어를 구별할 수 없다.
Word2vec이나 Glove같은 경우?
- Open a bank(은행) account & On the river bank(둑) ==> 같은 vector로 표현
Contextual Representations 경우?
- 문맥에 따라서 Contextual Representation이기 때문에 같은 bank라도 다른 의미로 인식
1. ELMo(Embeddings from Language Model)
- LSTM으로 랭귀지 모델을 만든다
- backward & forward 를 각각 더하는것이기 때문에 완전한 양방향이라고 할 수 없다.
2. OpenAI GPT
- Transformer 이해 필요
3. BERT
- 우리가 학습을 시키는 것이 불가능, 양이 어마어마함 -
- Masking을 시키면서 완전한 양방향을 이름
4. Korean BERT
- 우리가 학습을 시키는 것이 불가능, 양이 어마어마함
- ETRI에서 오픈(2019.6)
- 학습 데이터 : 신문 기사 및 백과사전 등 23GB의 대용량 텍슽으에 대해 47억개의 형태소를 사용하여 학습
- 두가지 버전으로 오픈 1. 형태소 분석 기반의 언어모델 2. 형태소 분석을 하지 않은 어절 기반의 언어모델
<참고> Language Representation 흐름도
1. One hot encoding
2. Word2Vec - CBOW, Skip-Gram
3. Glove
4. FastText
5. Cove
6. ELMO
7. GPT
8. BERT
9. GPT-2
10. ERNIE 1.0
11. XLNET
12. ERNIE 2.0
13. ROBERTa
<출처>
'인공지능 > 자연어처리' 카테고리의 다른 글
자연어처리 - 기계번역 (0) | 2019.12.30 |
---|---|
자연어처리 - Language Representation (1) (0) | 2019.12.30 |
자연어처리 - 기초 (0) | 2019.12.30 |
자연어처리 - WSL 환경에서 시작하기 (1) | 2019.12.25 |
자연어처리 - 코랩(Colab) 시작하기 (0) | 2019.12.25 |
댓글