Confusion Matrix
분류기 (Classifier) 는
Positive - False 로 이루어진 이진적인 데이터를 옳게 분류하는 모델이다
분류기가 한 예측은 맞거나(True) 틀리거나(False) 중 하나이다
그래서 모든 결과들을 테이블로 만들어둔게 Confusion Matrix이다
TP: True Positive
FP: False Positive
FN: False Negative
TN: True Negative
Accuracy
Accuracy는 정확도라고 하는데
분류기가 예측한 것들중에서 실제로 맞춘 것들의 비율이다
Accuracy가 1 이면 모든 데이터에 대해 옳게 정답을 내는 분류기이다
Precision
Precision은 분류기가 Positive라고 한 놈들 중
실제로 정답이 Positive라고 예측 한 애들의 비율이다
이 값이 0이라면 Positive라고 옉한 놈들이 실제로 다 Negative 였다는 뜻이 되기도 하지만
그냥 모든 데이터를 Negative라고 예측 한 분류기일 수도 있다
Recall
Recall은 실제 Ground Truth가 Positive인 데이터들 중에서
내가 몇개를 맞췄는가 이다
Sensitivity 라고도 부르고
나중에 ROC 커브에서 활용될
TPR - True Positive Rate 이라고 부르기도 한다
1에서 뺀 값은
Ground Truth가 Positive인 애들중에서 틀린 데이터의 비율로
FNR - False Negative Rate 이라고 한다
F-Measure
F - Measure은 Recall 과 Precision의 조화 평균으로 계산해보면 위에 처럼 나온다
Harmonic Mean은 평균을 구하려는 대상 값들의 역수의 평균을 구한걸 역수 취한 것이다
Specificity
Power, TNR - True Negative Rate이라고 불리기도 하며
Recall과 비슷하지만 Negative Ground Truth들을 위한 지표이며
실제로 Ground Truth가 Negative인 데이터들 중에서 옳게 Negative라고 분류한 비율이다
1에서 빼주면
Ground Truth가 Negative인 데이터들 중에서 틀린 애들의 비율로
FPR - False Positive Rate 이라고 한다
ROC Curve
FPR과 TPR을 축으로 하는 2차원 그래프이다
좌표가 (0,0)이면 모두 Negative라고 예측 한 그래프이며
(1,0)는 모두 Positive라고 예측한 비율이다
그래서 랜덤하게 예측하는 분류기는 중간을 가로지르는
밑에 넓이가 0.5인 분류기이며
그 넓이를 AUC
Area Under the Curve라고 부른다
AUC가 1인 분류기가 매우 이상적인 분류기이며 목표이다
ROC커브와 함께 Precision Recall Curve도 많이 활용된다
'컴퓨터공학 > 인공지능' 카테고리의 다른 글
저수지 샘플링 Reservoir Sampling (2) | 2024.10.23 |
---|---|
Leetcode Introduction to Pandas 기본 문법 정리 (2) | 2024.10.10 |
Custom Convnets 특수 제작 Convnet (79) | 2024.08.14 |
Stride CNN, 보폭 (82) | 2024.08.13 |
Maximum Pooling 최대값 풀링 (79) | 2024.08.07 |