▷문서 군집화 및 특징 추출
앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다.
▷Bag of Words
군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다.
▷Distance + Hierarchical Clustering
텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄고 있음) Distance 위젯이 군집화를 담당하면, Hierarchical Clustering은 그 결과의 시각화를 담당한다. 위의 텍스트 데이터들은 크게는 2가지 작게는 5가지 정도로 군집화될 수 있다.
▷Sentiment Analysis
위 위젯을 사용하면 각 문서에 대한 감정을 계산한다. 다양한 알고리즘을 제공하는데 보통 Vader 정서 모듈을 사용한다. 단, Vader 모듈은 영어에 대해서만 작동한다. Custom dictionary를 만들어 사용할 수도 있다.
Data Table 에 연결해 열어보면 pos(긍정) / neg(부정) / neu(중립) / compound(혼합 정도) 를 확인할 수 있다.
▷Statistics
Statistics 위젯을 활용하면 문서의 Word count(단어수) / Character count(글자수) / Average word length(평균문자길이) 등의 통계 변수를 추출할 수 있다.
'교육은 한 사람의 인생을 바꾼다 > AI교육' 카테고리의 다른 글
완전 초짜 ORANGE 3 : 데이터 분석의 기초2 (0) | 2021.08.27 |
---|---|
완전 초짜 ORANGE 3 : 이미지 분석 (0) | 2021.08.26 |
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) (0) | 2021.08.24 |
완전 초짜 ORANGE 3 : 텍스트 마이닝 (전처리) (0) | 2021.08.23 |
완전 초짜 ORANGE 3 : 데이터 분석의 기초 (0) | 2021.08.19 |
댓글