본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 지도학습

by 함께 만드는 블로그 2021. 8. 29.
반응형

▷지도학습(Supervised Learning)

-과거의 데이터로부터 학습해 결과를 예측하는 모델을 형셩

-주어진 과거의 데이터들이 특별한 경향성을 띄고 있음을 가정

-어떤 변수가 결과로 정한 변수의 원인이 되는지, 어떤 변수가 상관관계가 큰지 파악하는 과정

-즉, 인과관계를 가지는 데이터 or 변수를 해석함

-원인이 되는 변수 = 독립변수(Feature) / 결과가 되는 변수 = 종속변수(Target)

-종속변수가 양적, 범주형 데이터를 가져야 함. 

-많은 매개변수를 처리해야 하기 때문에 컴퓨터의 활용이 매우 중요

-회귀 = 다시 돌아간다 = 평균으로 돌아간다 = 여러 데이터들을 평균의 경향성을 중심으로 해석

-최소제곱법 : 잔차의 합의 제곱이 최소가 되게하는 매개변수 값을 구함 / 회귀분석에 사용

독립변수의 수에 따라 1개 : 단순회귀
2개 이상 : 다중회귀
독립변수와 종속변수의 관계에 따라  직선의 관계 : 선형회귀
직선이 아닌 관계 : 비선형회귀

 

 

▷지도학습 알고리즘

 

지도학습의 데이터 처리에 활용할 수 있는 위젯이 위에 사진에 있는 위젯들이다. 개략적으로 알아보자.

  1)로지스틱 회귀(Logistic Regression) :

종속변수가 이분형 혹은 그 이상일 때 사용할 수 있는 회귀분석기법. 시그모이드 함수가 활용된다. 

  2)SVM(Support Vector Machine) :

머신러닝의 대표적 '분류' 기법으로 다양한 변수들을 고차원 평면에 매핑하여 그 중 가장 적합한 결정경계(최적의 분할선)을 찾는 알고리즘

  3)Tree(결정트리) : 

 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 알고리즘으로 질문으로 답을 찾는 스무고개처럼 데이터 사이에 존재하는 패턴을 도출함

  4)Random Forest :

여러개의 decision tree를 형성하고 새로운 데이터 포인트를 각 트리에 통과시키며 각 트리가 분류한 결과에서 투표를 실시하고, 가장 많은 투표를 받은 받은 것이 최종 결과가 되는 분류 알고리즘

  5)kNN(k-Nearest Neighbor)

k개의 가장 가까운 훈련 데이터를 검색해 평균을 내 새로운 데이터의 값을 분석하는 알고리즘

 

 

▷지도학습 방법 : 1. 데이터의 Role 바꾸기

이제 위의 지도학습 알고리즘을 활용하여 직접 지도학습을 실행해본다. 제일 먼저 할 것은 내가 목표로 하는 변수와 그렇지 않은 변수들을 나눠주는 것이다. 데이터를 불러오는 File 위젯에서 변수들의 Role을 바꿔준다. 종속변수(목표변수)는 target으로 고려하지 않을 변수들은 skio으로 그 외 참고할 변수들을 meta로 지정한다.

 

 

▷지도학습 방법 : 2. 과적합을 막기 위해 Data Sampler 사용

과적합(overfitting)은 학습 데이터를 너무 과하게 학습하는 것을 말한다. 지도학습에서는 모델 생성 후 모델이 얼마나 잘 작동하는지 평가하기 위해 새로운 데이터를 입력해야한다. 이때, 기존 학습데이터를 평가 데이터로 다시 입력할 경우 과적합이 생길 수 있다. 따라서 처음부터 Data Sampler로 70%의 데이터를 사용해 모델을 만들고, 남은 30%의 데이터는 평가할 때 사용하면 과적합을 방지할 수 있다.

 

 

▷지도학습 방법 : 3. 지도학습 알고리즘 사용

3번째 단계는 위의 지도학습 알고리즘 중 원하는 것 혹은 여러가지를 골라 데이터를 처리하는 단계이다. 이때, 여러가지 알고리즘을 사용했다면 이중 가장 효과적인 최적의 알고리즘이 무엇인지 골라야 한다. 다음 포스팅에서는 최적화 모델을 찾고 그 모델을 평가해보는 4단계로 설명을 이어나가겠다. 

 

반응형

댓글