Deep Learning/Natural Language Processing
2021. 3. 21.
Sentiment Analysis < Movie Comment > - (2)
이로써 데이터의 분포와 각 리뷰에 대한 특성파악은 어느정도 충족이 되었다. 이를 바탕으로 새로운 자연어 데이터에 대해 그 의미를 파악해 긍정과 부정을 분류하는 모델을 구축한다. 자연어 처리는 토큰화, 인코딩 및 패딩과같은 정제가 선행되고 모델링을 거쳐 감성예측 모델링을 수행할 수 있다. 4. Preprocessing 4.1 Tokenizing def preprocessing(review, okt, remove_stopwords = False, stop_words = []): # 한글 및 공백을 제외한 이외의 문자 모두 제거 review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review) # okt 객체를 활용해서 형태소 단위로 분리 word_review = okt.morphs..