본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출)

by 함께 만드는 블로그 2021. 8. 25.
반응형

▷문서 군집화 및 특징 추출

앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다. 

 

▷Bag of Words

군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다.

 

▷Distance + Hierarchical Clustering

텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄고 있음) Distance 위젯이 군집화를 담당하면, Hierarchical Clustering은 그 결과의 시각화를 담당한다. 위의 텍스트 데이터들은 크게는 2가지 작게는 5가지 정도로 군집화될 수 있다. 

 

▷Sentiment Analysis

 위 위젯을 사용하면 각 문서에 대한 감정을 계산한다. 다양한 알고리즘을 제공하는데 보통 Vader 정서 모듈을 사용한다. 단, Vader 모듈은 영어에 대해서만 작동한다. Custom dictionary를 만들어 사용할 수도 있다.

 Data Table 에 연결해 열어보면 pos(긍정) / neg(부정) / neu(중립) / compound(혼합 정도) 를 확인할 수 있다.  

 

▷Statistics

Statistics 위젯을 활용하면 문서의 Word count(단어수) / Character count(글자수) / Average word length(평균문자길이) 등의 통계 변수를 추출할 수 있다.

반응형

댓글