자연어처리 - 특징 추출(CountVectorizer, TfidVectorizer, HashingVectorizer)
0. 특징 추출 모듈 자연어 처리에서 특징 추출이란? 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미 기존에 문자로 구성되어 있던 데이터를 모델에 적용할 수 있도록 특징을 뽑아 어떤값으로 바꿔서 수치화 CountVectorizer - 단순히 각 테스트에서 횟수를 기준으로 특징 추출 TfidVectorizer - TF-IDF라는 값을 사용해 텍스트에서 특징 추출 HashingVectorizer - CounterVectorizer와 동일하지만 해시 함수를 사용, 텍스트의 크기가 클수록 HashingVectorizer 사용하는게 효율적 1. CountVectorizer 텍스트 데이터에서 횟수를 기준으로 특징을 추출하는 방법 어떤 단위의 횟수를 선택하는지는 선택사항 횟수를 사용해서 벡터를..
인공지능/자연어처리
2019. 10. 26. 21:02