▷ 지도학습 방법 : 4. 최적화 모델 선택 배경
어떤 모델이 가장 최적의 모델인지 선택하기 위해서는 분류모델의 성능을 평가하는 지표(score)를 알아야한다.
이때 가장 기본이 되는 것이 <<혼동행렬(Confusion Matrix)>> 이다.
TP는 맞다고 예측하고 실제로도 맞은 경우 / FN은 맞다고 예측했는데 아닌 경우 / FP는 아니라고 예측했는데 맞은 경우 / TN은 아니라고 예측했는데 아닌 경우이다. 즉 TP/TN은 높을수록 FP/FN는 낮을수록 성능이 좋은 모델이다.
이를 바탕으로 분류 모델의 성능을 평가하는 <<각종 점수>>를 산출할 수 있다.
정밀도 / 정확도 / 재현율 / F1 점수가 여기에서 나온다. 모델의 성능을 평가하기 위해선 한가지 더 알아야하는게 있다.
위의 그래프를 ROC 곡선이라고 한다. 이는 민감도(TPR)와 거짓참판정 비율(FPR)을 평면위에 나타낸 것이다. 성능이 좋은 모델은 민감도가 높을 것이기 때문에 위와같이 좌측상단쪽으로 붙는 그래프일수록 더 최적화된 모델이라는 것을 알 수있다. AUC란 Area Under ROC curve 의 약자로 ROC 곡선과 X축이 만드는 공간의 넓이를 말한다. 당연히 AUC의 크기가 클수록 최적화된 모델이란 것을 알 수 있다.
▷ 지도학습 방법 : 5. 학습/ 예측
지도학습이 일어나는 대략적인 과정을 정리한 것이다. 우리가 앞으로 살펴봐야 할 단계는 학습/예측 >> 평가 >> 적용 단계이다.
>>Predictions
Predictions 위젯을 활용하여 선택한 모델에 의한 예측값과 실측값을 비교하고 그 정확도를 확인할 수 있다.
▷ 지도학습 방법 : 6. 평가
>>Test and Score
여러 모델 중 최적의 모델을 확인하는 위젯이 바로 Test and Score 위젯이다. Test and Score 위젯을 활용하면 모델의 성능(신뢰도)를 확인할 수 있는 AUC / CA(정확도) / F1 score / Precision(정밀도) / Recall(재현율) 등의 지표를 확인할 수 있다. 뭐가 어렵다면 그냥 위의 숫자들이 1에 가까울수록 성능이 좋은 최적화 모델이라는 것만 알면 된다^^
>>Confusion Matrix
위에서 봤던 '혼동행렬'이다. 위의 설명을 참고하면 된다.
>>ROC Analysis
마찮가지로 ROC 곡선도 위젯으로 확인해볼 수 있다.
▷ 지도학습 방법 : 7. 적용
이전에 데이터들로 학습한 후 평가하는 과정을 통해 최적의 모델을 찾았다면, 이 모델을 새로운 데이터에 넣어서 적용해볼 수 있다. 원래하는 연결방식과 같이 데이터 연결을 새로운 데이터로 바꿔주기만 하면 된다.
'교육은 한 사람의 인생을 바꾼다 > AI교육' 카테고리의 다른 글
완전 초짜 ORANGE 3 : 비지도학습 군집화 기초 (0) | 2021.09.01 |
---|---|
완전 초짜 ORANGE 3 : 지도학습 모델 평가(회귀편) (0) | 2021.08.31 |
완전 초짜 ORANGE 3 : 지도학습 (0) | 2021.08.29 |
완전 초짜 ORANGE 3 : 다양한 위젯으로 데이터 분석 (0) | 2021.08.28 |
완전 초짜 ORANGE 3 : 데이터 분석의 기초2 (0) | 2021.08.27 |
댓글