티스토리 뷰

1. 자연언어 (Natural Language)

* 자연언어란? 

- 인간 고유의 언어

- 정보 전달의 수단

 

* 인공언어란?

- 특정 목적을 위해 인위적으로 만든 언어

- 자연언어에 비해 엄격한 구문을 가짐

 

자연언어처리? 일상의 언어를 처리하는 것 

 

* 자연어처리 = 컴퓨터과학 + 인공지능 + 언어학

 

2. 용어정리

* NLP - Natural Language Processing ( 자연어 처리)

* NLU - Natural Language Undertanding(자연언어이해) -> NLP에 속한다

 

 

3. 자연어처리가 어려운 이유?

- 동일한 표현이 다양한 방법으로 해석될 수 있는 애매성(ambiguity)을 내포

- 형태소 수준의 매매상 

- 구문 수준의 애매성 ( 두개의 침실 or 두개의 스위트룸) 

- 구문적 애매성 - 구문분석 여러가지 구조로 분석될 수 있는 가능성

 

 

4. 자연어처리의 단계

((자연언어문장 -> 형태소 분석 -> 구문분석 -> 의미분석 -> 화용분석 -> 분석결과 )) 

- 딥러닝이 나오기 전에는 위와 같은 순서로 시행하였다.

- 현재에도 쓰이긴 하지만 딥러닝 후에는 순서가 달라짐

 

 

4.1. Lexical analysis (형태소 분석) 

- 형태소 분석 이전에 

- 입력된 문장을 잘 분할해서 효율성을 높이기 위함

- setnecne splitting : 마침, 느낌표, 물음표 등을 기준으로 분리

- Tokenizing : 문서나 문장을 분석하기 좋도록 나눔

- Morphological : 토큰들을 좀 더 일반적인 형태로 분석해 단어수를 줄여 분석의 효율성으 ㄹ높임

- Stemming :  cars , car -> car 로 .. 단어를 원형으로 나누기 

 

 

4.2. Syntax Analysis (구문분석)

- 왜 필요할까?  규칙에 따라 문장은 만들었는데 문장이 의미적으로 올바른것인지 아는 것이 필요

 

 

4.3 Discourse Analysis 

- 네이버 클로바, kt 지니... 

- 대화의 흐름을 파악하여 발화자의 의도에 맞도록 응답하기

 

* Discouse Analysis란?

- 대화의 흐름상 어떤 의미를 가지는지 찾기

- 문맥 구조 분석(문장들의 연관관계)

- 의도분석 (전후 관계를 통한 실제의도)

- 대화분석 (대표적인 담화분석)

 

ex) 실시간 강연 통역 시스템

- 기계번역의 음성에서 잘라주는것도 필요하다

- 규칙기반이나 통계기반으로도 하는것도 필요하다. 

 

 

https://www.slideshare.net/deview/222-52779117

 

 

5. 1번~4번 정리

NLU - 형태소분석, 구문분석, 의미분석

NLG - 기계번역 , 챗봇처럼 음성합성을 통해 만드는것

챗봇같은 경우 NLU와 NLG가 합쳐진 분야이다.  

 

 

 

6. 자연언어 처리를 위한 언어학

* 음성학 & 음운론

- 음소 : 더 이상 작게 나눌수 없는 음운론상의 최소 단위 

- 음성인식 - Signal to sound 

- 형태소 : 의미를 가지는 언어단위중 가장 작은 단위, 의미 혹은 문법적 기능의 최소단위

 

* 형태소 분석(Morphological Analysis)

- 입력된 문자열을 분석하여 형태소(morpheme)라는 최소 의미 단위로 분리

- 사전 정보와 형태소 결합 정보 이용

- 정규 문법(Regular Grammar)으로 분석가능

- 언어에 따라 난이도가 다름 (영어, 불어 : 쉬움, 한국어, 일본어, 아랍어, 터키어 : 어려움) 

 

* 형태소 분석의 난점

- 중의성

- 접두사, 접미사 처리

- 고유명사, 가전에 등록되지 않은 단어처리

- 한국어 형태소 결합의 예...

 

* 문법, 구문 분석

- 문법(Grammar) : 문장의 구조적 성질을 규칙으로 표현한 것

- 구문 분석기(Parser) : 문법을 이용하여 문장의 구조 찾기 

 

* 의미분석(Semantic Analysis) 

-  통사 분석 결과에 해석을 가아혀 문장본석...

 

 

 

7. 자연어 처리에 어떠한 분야가 있을까? 

- Neural Machine Translation  (NLU + NLG) - 번역기

- Virtual Assistants - 구글홈, 카카오 미니, SK 누구 

- DUPLEX by Google

- Image Captioning - 사진을 입력으로 들어가면 어떠한 내용이 있는지 기계적 출력 내보내는 것

- Language Modeling - ELMo나 BERT 결합되어 있음, 어떠한 단어 다음에 문장 확률 모형, 오늘 해야? 해야할? 해야할지? 그러한 확률 모형이 Language Modeling 이다. 

>> Language Modeling이 왜 중요한가? 어떤게 확률적으로 올바른가? 언어모델 - 상당히 중요

 

>> N-gram : 이 단어다음에 몇개 까지 확률? 두개를 보면 바이그램, 하나만 보면 유니그램 ... 

>>>>> 모든 단어를 보면 좋지만 한개만 볼거냐 두개나 볼꺼냐 단어 올 확률? 마르코프가정?

 

>> Language 모델이 왜 중요? 

>>>>> BERT, ELMo.... 

 

* Named Entity Recognition 

- 형태소 분석의 단위가 들어간다. 

 

* 기계독해(MRC) - SQuAD Dataset 

 

* Text Summarization

1. Extractive 방식

2. Abstractive  방식 

 

*sentiment Analysis (감정분석)

 

 

출처

- 본 내용은 T academy의 기계번역을 보고 정리한 내용입니다. 

 

기계번역 입문 | T아카데미 온라인강의

1. 자연어처리와 기계번역이란 무엇인지 이해하고, 딥러닝 기반의 기계번역 방법들에 대해 알아본다. 2. OpenNMT를 이용한 기계번역에 대한 실습을 진행한다.

tacademy.skplanet.com

 

 

 

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함