티스토리 뷰
1. 자연언어 (Natural Language)
* 자연언어란?
- 인간 고유의 언어
- 정보 전달의 수단
* 인공언어란?
- 특정 목적을 위해 인위적으로 만든 언어
- 자연언어에 비해 엄격한 구문을 가짐
자연언어처리? 일상의 언어를 처리하는 것
* 자연어처리 = 컴퓨터과학 + 인공지능 + 언어학
2. 용어정리
* NLP - Natural Language Processing ( 자연어 처리)
* NLU - Natural Language Undertanding(자연언어이해) -> NLP에 속한다
3. 자연어처리가 어려운 이유?
- 동일한 표현이 다양한 방법으로 해석될 수 있는 애매성(ambiguity)을 내포
- 형태소 수준의 매매상
- 구문 수준의 애매성 ( 두개의 침실 or 두개의 스위트룸)
- 구문적 애매성 - 구문분석 여러가지 구조로 분석될 수 있는 가능성
4. 자연어처리의 단계
((자연언어문장 -> 형태소 분석 -> 구문분석 -> 의미분석 -> 화용분석 -> 분석결과 ))
- 딥러닝이 나오기 전에는 위와 같은 순서로 시행하였다.
- 현재에도 쓰이긴 하지만 딥러닝 후에는 순서가 달라짐
4.1. Lexical analysis (형태소 분석)
- 형태소 분석 이전에
- 입력된 문장을 잘 분할해서 효율성을 높이기 위함
- setnecne splitting : 마침, 느낌표, 물음표 등을 기준으로 분리
- Tokenizing : 문서나 문장을 분석하기 좋도록 나눔
- Morphological : 토큰들을 좀 더 일반적인 형태로 분석해 단어수를 줄여 분석의 효율성으 ㄹ높임
- Stemming : cars , car -> car 로 .. 단어를 원형으로 나누기
4.2. Syntax Analysis (구문분석)
- 왜 필요할까? 규칙에 따라 문장은 만들었는데 문장이 의미적으로 올바른것인지 아는 것이 필요
4.3 Discourse Analysis
- 네이버 클로바, kt 지니...
- 대화의 흐름을 파악하여 발화자의 의도에 맞도록 응답하기
* Discouse Analysis란?
- 대화의 흐름상 어떤 의미를 가지는지 찾기
- 문맥 구조 분석(문장들의 연관관계)
- 의도분석 (전후 관계를 통한 실제의도)
- 대화분석 (대표적인 담화분석)
ex) 실시간 강연 통역 시스템
- 기계번역의 음성에서 잘라주는것도 필요하다
- 규칙기반이나 통계기반으로도 하는것도 필요하다.
5. 1번~4번 정리
NLU - 형태소분석, 구문분석, 의미분석
NLG - 기계번역 , 챗봇처럼 음성합성을 통해 만드는것
챗봇같은 경우 NLU와 NLG가 합쳐진 분야이다.
6. 자연언어 처리를 위한 언어학
* 음성학 & 음운론
- 음소 : 더 이상 작게 나눌수 없는 음운론상의 최소 단위
- 음성인식 - Signal to sound
- 형태소 : 의미를 가지는 언어단위중 가장 작은 단위, 의미 혹은 문법적 기능의 최소단위
* 형태소 분석(Morphological Analysis)
- 입력된 문자열을 분석하여 형태소(morpheme)라는 최소 의미 단위로 분리
- 사전 정보와 형태소 결합 정보 이용
- 정규 문법(Regular Grammar)으로 분석가능
- 언어에 따라 난이도가 다름 (영어, 불어 : 쉬움, 한국어, 일본어, 아랍어, 터키어 : 어려움)
* 형태소 분석의 난점
- 중의성
- 접두사, 접미사 처리
- 고유명사, 가전에 등록되지 않은 단어처리
- 한국어 형태소 결합의 예...
* 문법, 구문 분석
- 문법(Grammar) : 문장의 구조적 성질을 규칙으로 표현한 것
- 구문 분석기(Parser) : 문법을 이용하여 문장의 구조 찾기
* 의미분석(Semantic Analysis)
- 통사 분석 결과에 해석을 가아혀 문장본석...
7. 자연어 처리에 어떠한 분야가 있을까?
- Neural Machine Translation (NLU + NLG) - 번역기
- Virtual Assistants - 구글홈, 카카오 미니, SK 누구
- DUPLEX by Google
- Image Captioning - 사진을 입력으로 들어가면 어떠한 내용이 있는지 기계적 출력 내보내는 것
- Language Modeling - ELMo나 BERT 결합되어 있음, 어떠한 단어 다음에 문장 확률 모형, 오늘 해야? 해야할? 해야할지? 그러한 확률 모형이 Language Modeling 이다.
>> Language Modeling이 왜 중요한가? 어떤게 확률적으로 올바른가? 언어모델 - 상당히 중요
>> N-gram : 이 단어다음에 몇개 까지 확률? 두개를 보면 바이그램, 하나만 보면 유니그램 ...
>>>>> 모든 단어를 보면 좋지만 한개만 볼거냐 두개나 볼꺼냐 단어 올 확률? 마르코프가정?
>> Language 모델이 왜 중요?
>>>>> BERT, ELMo....
* Named Entity Recognition
- 형태소 분석의 단위가 들어간다.
* 기계독해(MRC) - SQuAD Dataset
* Text Summarization
1. Extractive 방식
2. Abstractive 방식
*sentiment Analysis (감정분석)
출처
- 본 내용은 T academy의 기계번역을 보고 정리한 내용입니다.
'인공지능 > 자연어처리' 카테고리의 다른 글
자연어처리 - Language Representation (1) (0) | 2019.12.30 |
---|---|
자연어처리 - Language Representation (2) (0) | 2019.12.30 |
자연어처리 - WSL 환경에서 시작하기 (1) | 2019.12.25 |
자연어처리 - 코랩(Colab) 시작하기 (0) | 2019.12.25 |
자연어처리 - 임베딩 파인튜닝 (0) | 2019.12.25 |