본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 비지도학습(차원축소)

by 함께 만드는 블로그 2021. 9. 2.
반응형

▷차원의 저주

 

-차원이 증가할수록 변수들의 밀집도가 넓어짐. 따라서 개별 차원 내 학습 데이터의 수가 적어짐.

-예) kNN 모델에서 차원이 커질수록 주변의 데이터들이 멀어짐 

-따라서 변수들을 상관관계가 높은 묶음으로 묶고 데이터 차원을 축소해 정제하는 과정이 필요함.

-예) 고전, 프랑스어, 영어 >> 언어 능력

-PCA ( Principal Component Analysis ) : 주성분 분석 - 변수들의 선형 조합에 의해 대표적인 주성분을 만들어 차원을 줄이는 방식(고유분산이 필요 x) 

-t-SNE (t-Stochastic Neighbor Embedding) : t-분산 확률적 인접 임베딩 방법을 사용해 데이터를 표시하는 방식 / 확률 분포에 의해 2차원 공간에 mapping 함 

-FA (Factor Analysis) : 요인 분석 - 측정변수를 공통적인 요인으로 묶어 자료의 복잡성을 줄이는 방식(고유분산이 중요)

-차원 축소의 장점 : 관측 불가능의 보이지 않는 것들을 측정하기 위해 관측 가능한 요소들을 이용해 연구할 수 있음

-차원 축소의 단점 : 연구 결과가 함축되는 과정에서 연구자의 의도가 개입되고, 데이터의 직관성이 떨어지게 됨

-분산 : 평균값 중심으로 분포된 정도

-공분산 : 두 변수의 관계를 나타내는 양 / 두 변수 간 편차의 곱

 

 

▷차원 축소 실습(PCA)

PCA를 사용해 대규모 데이터 세트의 시각화를 단순화활 수 있다. 또 PCA(주성분 분석)을 활용해, 원하는 갯수의 주성분을 구성하고 그 결과를 Data Table 로 확인할 수 있다. 

 

-PCA 는 변환된 데이터와 주 구성 요소 두 가지의 출력을 제공한다. 현재 위에서는 세 가지 주구성요소로 수많은 요소드을 차원축소 시켰다. 위 세가지 주구성 요소의 가중치와 포함 요소들을 확인할 수 있다. 

-주성분 분석은 이렇게 대량의 데이터를 단순화 시키지만, 이 과정에서 연구자의 자의적 해석이 심화될 수 있다.

 

위 예제에서는 PCA 분석 이후 지도학습 모델을 활용해 만족도에 영향을 끼치는 요소들을 분석해 만족/불만족 여부를 예측하는 모델을 구성해보았다.

 

 

▷분광학 분석(Spectra)

Spectra 위젯을 활용하면 공간정보 없이 일련의 스펙트럼을 시각적으로 탐색할 수 있다. 

 

 

반응형

댓글