본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 지도학습 모델 평가

by 함께 만드는 블로그 2021. 8. 30.
반응형

▷ 지도학습 방법 : 4. 최적화 모델 선택 배경

어떤 모델이 가장 최적의 모델인지 선택하기 위해서는 분류모델의 성능을 평가하는 지표(score)를 알아야한다.

 

이때 가장 기본이 되는 것이 <<혼동행렬(Confusion Matrix)>> 이다.

TP는 맞다고 예측하고 실제로도 맞은 경우 / FN은 맞다고 예측했는데 아닌 경우 / FP는 아니라고 예측했는데 맞은 경우 / TN은 아니라고 예측했는데 아닌 경우이다. 즉 TP/TN은 높을수록 FP/FN는 낮을수록 성능이 좋은 모델이다.

 

이를 바탕으로 분류 모델의 성능을 평가하는 <<각종 점수>>를 산출할 수 있다.

정밀도 / 정확도 / 재현율 / F1 점수가 여기에서 나온다. 모델의 성능을 평가하기 위해선 한가지 더 알아야하는게 있다.

 

 

위의 그래프를 ROC 곡선이라고 한다. 이는 민감도(TPR)와 거짓참판정 비율(FPR)을 평면위에 나타낸 것이다. 성능이 좋은 모델은 민감도가 높을 것이기 때문에 위와같이 좌측상단쪽으로 붙는 그래프일수록 더 최적화된 모델이라는 것을 알 수있다. AUC란 Area Under ROC curve 의 약자로 ROC 곡선과 X축이 만드는 공간의 넓이를 말한다. 당연히 AUC의 크기가 클수록 최적화된 모델이란 것을 알 수 있다.

 

 

▷ 지도학습 방법 : 5. 학습/ 예측

 

지도학습이 일어나는 대략적인 과정을 정리한 것이다. 우리가 앞으로 살펴봐야 할 단계는 학습/예측 >> 평가 >> 적용 단계이다.

 

>>Predictions

Predictions 위젯을 활용하여 선택한 모델에 의한 예측값과 실측값을 비교하고 그 정확도를 확인할 수 있다.

 

 

▷ 지도학습 방법 : 6. 평가

>>Test and Score

여러 모델 중 최적의 모델을 확인하는 위젯이 바로 Test and Score 위젯이다. Test and Score 위젯을 활용하면 모델의 성능(신뢰도)를 확인할 수 있는 AUC / CA(정확도) / F1 score / Precision(정밀도) / Recall(재현율) 등의 지표를 확인할 수 있다. 뭐가 어렵다면 그냥 위의 숫자들이 1에 가까울수록 성능이 좋은 최적화 모델이라는 것만 알면 된다^^

 

>>Confusion Matrix

위에서 봤던 '혼동행렬'이다. 위의 설명을 참고하면 된다. 

 

>>ROC Analysis

마찮가지로 ROC 곡선도 위젯으로 확인해볼 수 있다. 

 

 

▷ 지도학습 방법 : 7. 적용

이전에 데이터들로 학습한 후 평가하는 과정을 통해 최적의 모델을 찾았다면, 이 모델을 새로운 데이터에 넣어서 적용해볼 수 있다. 원래하는 연결방식과 같이 데이터 연결을 새로운 데이터로 바꿔주기만 하면 된다.

반응형

댓글