-
분류모델 평가지표 - 오차행렬 혼동행렬, 정확도 재현율 정밀도 F1-score, ROC곡선 AUC위키/데이터분석 2024. 7. 4. 17:37728x90반응형
✅ 오차행렬 = 혼동행렬 = Confusion Matrix
- 오차행렬은 분류모델을 평가하는 데 가장 많이 사용되는 지표 중 하나입니다.
- 데이터의 답이 Positive / Negative 2가지로만 분류되는 상황에서, 발생 가능한 경우의 수는 아래 4가지 뿐입니다.
✔️ TP (True Positive) : 예측값이 Pos = 실제값도 Pos
✔️ FP (False Positive) : 예측값이 Pos ≠ 실제값은 Neg
✔️ FN (False Negative) : 예측값이 Neg ≠ 실제값은 Pos
✔️ TN (True Negative) : 예측값이 Neg = 실제값도 Neg
- 위 4가지 경우를 가지고 분류모델의 평가지표를 계산할 수 있습니다.
✔️ 정확도 : 분류모델이 실제값을 정확하게 예측한 비율
Accuracy = (TP + TN) / (TP + TN + FP + FN)
✔️ 재현율 : 분류모델이 실제 Pos를 Pos로 예측한 비율
Recall = TP / (TP + FN)
✔️ 정밀도 : 분류모델이 Pos로 예측한 것들 중 실제 Pos의 비율
Precision = TP / (TP + FP)
✔️ F1-score : 재현율과 정밀도의 조화평균
F1-score = 2 × ((재현율 × 정밀도) / (재현율 + 정밀도)) - 균형있는 데이터의 경우, 정확도(Accuracy)와 F1-score 둘다 평가지표로 활용할 수 있습니다.
- 편중된 데이터의 경우, 정확도만으로 모델의 성능을 판단하기에 효과적이지 않고, F1-score를 활용하는 것이 좋습니다.
가로축
= False Positive Rate
= FPR = FP / (FP + TN)
= 실제 Neg를 Pos로 잘못 예측한 비율
(낮을수록 좋은 값!)세로축
= True Positive Rate
= TPR = TP / (TP + FN)
= 실제 Pos를 Pos로 맞게 예측한 비율
(높을수록 좋은 값!)✅ ROC곡선 & AUC
- ROC곡선은 FPR의 변화에 따른 TPR의 변화를 나타내는 곡선입니다.
- AUC는 ROC곡선 아래의 면적을 나타내는 값입니다. 0.5~1.0 사이의 값을 가집니다.
- ROC곡선이 직각에 가까울수록 = 왼쪽 꼭대기에 가까울수록= AUC는 1에 가까울수록, 모델의 성능이 좋다고 판단합니다.
728x90반응형'위키 > 데이터분석' 카테고리의 다른 글
데이터분석 모델링 프로세스, 머신러닝 AI 모델링 과정 요약 정리 (0) 2024.07.05 회귀모델 평가지표 - R2 score 결정계수, MAE, MSE, RMSE, MAPE, MPE (0) 2024.07.04 데이터분석 기획 유형 - 최적화, 솔루션, 통찰, 발견 / 데이터분석 하향식 상향식 접근방식 (1) 2024.06.03 항상 헷갈리는 명목척도 서열척도 등간척도 비율척도 뜻 차이 예시 (1) 2024.05.18 정형데이터 반정형데이터 비정형데이터 뜻 구분, DB 스키마 뜻 (1) 2024.05.16