본문 바로가기

비지도학습4

완전 초짜 ORANGE 3 : 시스템 제작 과정 ▷시스템 제작 과정 AI 문제 확인 AI 솔루션 확인 AI 솔루션 설계 AI 솔루션 개발 평가 및 피드백 -AI로 해결 가능한 문제 찾기 EX) 주택가격 -문제 해결 방법 찾기 -다양한 분석틀 이용 -구체적 '안' 설계 -어디에서 데이터를 수지할까? 데이터 수집의 한계 -오렌지3 워크플로우 제작 -새로운 데이터에 적용 -결과 확인 ▷시스템 제작 예제 확인 1) 네트워크 분석 모델 네트워크 분석은 군집화와 연결성이 좋다. 일반적인 데이터도 Distances(계층적 군집화 모델)로 instance간 거리(유사도)를 수치화하면, 네트워크 위젯으로 분석하고 표현할 수 있다. 또한, Distances 위젯으로 분석했기 때문에 Distance Matrix나 Hierarchical Clustering 위젯 등으로 시.. 2021. 9. 9.
완전 초짜 ORANGE 3 : 비지도학습 군집화 위젯 ▷Distances + Hierarchical Clustering (계층적 군집화) 계층적 군집화에 활용되는 Distances + Hierarchical Clustering 위젯이다. 두개를 묶어서 세트로 활용하는 경우가 많다. distances 위젯이 군집화 데이터 처리를 한다면, Hierarchical Clustering 위젯은 시각화하여 보여준다. 현재 크게 2가지 군집으로 나뉜것을 볼 수 있다. ▷Distances Matrix (계층적 군집화) Distances Matrix 는 데이터 세트 요소와 요소 사이의 거래 행렬을 만들어 표현한다. 이를 통해 각 요소간의 분포 정도를 수치 데이터로 확인할 수 있다. ▷k-Means + Silhouette Plot (분할적 군집화 + 중심기반 ) 마찮가지로 .. 2021. 9. 3.
완전 초짜 ORANGE 3 : 비지도학습(차원축소) ▷차원의 저주 -차원이 증가할수록 변수들의 밀집도가 넓어짐. 따라서 개별 차원 내 학습 데이터의 수가 적어짐. -예) kNN 모델에서 차원이 커질수록 주변의 데이터들이 멀어짐 -따라서 변수들을 상관관계가 높은 묶음으로 묶고 데이터 차원을 축소해 정제하는 과정이 필요함. -예) 고전, 프랑스어, 영어 >> 언어 능력 -PCA ( Principal Component Analysis ) : 주성분 분석 - 변수들의 선형 조합에 의해 대표적인 주성분을 만들어 차원을 줄이는 방식(고유분산이 필요 x) -t-SNE (t-Stochastic Neighbor Embedding) : t-분산 확률적 인접 임베딩 방법을 사용해 데이터를 표시하는 방식 / 확률 분포에 의해 2차원 공간에 mapping 함 -FA (Facto.. 2021. 9. 2.
완전 초짜 ORANGE 3 : 비지도학습 군집화 기초 ▷군집화(Clustering) -주어진 데이터를 유사한 데이터 그룹으로 나누는 것 군집화(Clustering) 분류(Classification) -정확히 지정된 속성 없이 유사 속성에 따라 나눠가는 것 -비지도학습(기준을 찾아가는 과정) -정해진 기준(label)에 따라 나누는 것 -지도학습(기준 미리 제시) -군집화 알고리즘의 종류 계층적 군집화 응집형(Bottom - up) -계층적 트리모형 / 덴드로그램 사용 -Hierarchical Clustering 위젯 분리형(top-down) 분할적 군집화 중심기반(Centeroid) -k-Means(k평균군집화) 위젯 밀도기반(Core point) -DBSCAN 위젯 -군집화의 사용 : 지도학습의 분류의 전단계에 활용하면 좋음 / 대량의 데이터를 요약하고 .. 2021. 9. 1.