본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 비지도학습 군집화 기초

by 함께 만드는 블로그 2021. 9. 1.
반응형

▷군집화(Clustering)

-주어진 데이터를 유사한 데이터 그룹으로 나누는 것

군집화(Clustering) 분류(Classification)
-정확히 지정된 속성 없이 유사 속성에 따라 나눠가는 것
-비지도학습(기준을 찾아가는 과정)
-정해진 기준(label)에 따라 나누는 것
-지도학습(기준 미리 제시)

-군집화 알고리즘의 종류

계층적 군집화 응집형(Bottom - up)  -계층적 트리모형 / 덴드로그램 사용
-Hierarchical Clustering 위젯
  분리형(top-down)
분할적 군집화 중심기반(Centeroid) -k-Means(k평균군집화) 위젯
  밀도기반(Core point) -DBSCAN 위젯

-군집화의 사용 : 지도학습의 분류의 전단계에 활용하면 좋음 / 대량의 데이터를 요약하고 조직하며 그 속에서 이상값을 발견하는데 용이 / 자율주행 자동차의 이미지 인식에도 군집화를 통해 이미지를 처리할 수 있음

-군집화 원리 : 군집 내 응집도 최대화 / 군집 간 분리도 최대화 

 

▷군집화의 측도

-유사도와 거리 

-다양한 '거리(distance)'를 기준으로 군집화 (최적화) 정도를 측정

-유클리디안 거리 : 격자에서 최소 길이로 가는 방법 / 대각선 길이 / L2표준 / 초록선

-맨하탄 거리 : 격자의 길을 따라가는 거리 / L1표준 / 주황,파랑,노란선(모두 길이는 같음)

-마할라노비스 거리 : 변수의 표준편차와 상관성(방향성)을 고려한 거리(타원형)

 

-자카드 지수 : 유사성(교집합)의 정도를 찾아 표현 / 범주형 데이터에 사용

-자카드 거리 : 비유사성(여집합=합집합-교집합)의 정도를 표현 / 범주형 데이터에 사용

 

-코사인거리 : 문서의 분류, 군집화에 활용 / 백터(방향, 각도)로 유사성을 표현 / 코사인으로 백터를 각도로 치환

 

자 이렇게 군집화에 필요한 기초적 지식을 알아보았다. 다음 포스팅에서는 바로 오렌지3에서 실습해보자.

반응형

댓글