본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류)

by 함께 만드는 블로그 2021. 8. 24.
반응형

▷문서요약 (Topic Modeling)

-문서를 요약하는 주제 모델링 알고리즘은 크게 3가지 (LSI / LDA / HDP)

-LSI = Latent Semantic Indexing (잠재 의미 분석) / LDA = Latent Dirichlet Allocation (잠재 디리클레 할당) / HDP = Hierarchical Dirichlet Process (계층 디리클레 프로세스)

-셋의 차이가 정확히 뭔지는 잘 모르겠음. 그냥 LSI를 많이 쓴다고 함.

 

▷Topic Modeling

 토핑 모델링 위젯을 통해 LSI / LDA / HDP 중 1개의 알고리즘을 골라 주제 키워드들을 요약할 수 있다. 이때 number of topics 수를 줄여 주제 키워드의 수를 줄이거나 늘릴 수도 있다. 

 

▷문서분류

-문서의 분류에는 크게 2가지 위젯을 사용(Logistic Regression / Naive Bayes: Bayes의 정리를 기반으로 한 빠르고 단순한 확률 분류기)

-분류 결과의 시각적 표현에는 Nomogram 을 이용

 

▷Logistic Regression / Naive Bayes

 로지스틱 회귀와 나이브 베이스 위젯을 활용해 문서를 분류 처리하고 그 결과를 test and score 위젯으로 비교해본다. 각종 score를 비교해봤을 때, 위의 데이터에는 로지스틱 회귀 방식이 더 적합함을 알 수 있다. 

 

▷Nomogram

보다 적합한 모델로 판명된 로지스틱 회귀의 분류 결과를 알아보기 위해 노모그램을 연결했다. 노모그램에 총 12개 키워드에 대한 중요도가 나타나 있다. 2d 커브로 표현하면 저렇게 정비례 기울기 값과 반비례 기울기 값으로 나뉜다. 정비례인 키워드는 타겟 클래스(tales of magic)에 대해서 중요도가 높다는 뜻이고 / 반비례인 키워드는 타겟 클래스에 대해서 중요도가 낮다는 뜻이다. 

반응형

댓글