T'SPACE

다채로운 에디터들의 이야기

컴퓨터공학/인공지능

분류기 성능지표들과 ROC Curve, Confusion Matrix

Tonny Kang 2024. 12. 6. 08:20
반응형

Confusion Matrix


https://h2o.ai/wiki/confusion-matrix/_jcr_content/root/section/par/advancedcolumncontro_1271832721/columns1/image.coreimg.jpeg/1689866291131/confusion-matrix.jpeg

분류기 (Classifier) 는 

Positive - False 로 이루어진 이진적인 데이터를 옳게 분류하는 모델이다

 

분류기가 한 예측은 맞거나(True) 틀리거나(False) 중 하나이다

 

그래서 모든 결과들을 테이블로 만들어둔게 Confusion Matrix이다

 

TP: True Positive

FP: False Positive

FN: False Negative

TN: True Negative

반응형

 

Accuracy


Accuracy는 정확도라고 하는데

분류기가 예측한 것들중에서 실제로 맞춘 것들의 비율이다

Accuracy가 1 이면 모든 데이터에 대해 옳게 정답을 내는 분류기이다

728x90

 

Precision


Precision은 분류기가 Positive라고 한 놈들 중

실제로 정답이 Positive라고 예측 한 애들의 비율이다

 

이 값이 0이라면 Positive라고 옉한 놈들이 실제로 다 Negative 였다는 뜻이 되기도 하지만

그냥 모든 데이터를 Negative라고 예측 한 분류기일 수도 있다

 

Recall


 

Recall은 실제 Ground TruthPositive인 데이터들 중에서

내가 몇개를 맞췄는가 이다

Sensitivity 라고도 부르고

나중에 ROC 커브에서 활용될 

TPR - True Positive Rate 이라고 부르기도 한다

1에서 뺀 값은

Ground TruthPositive인 애들중에서 틀린 데이터의 비율로

FNR - False Negative Rate 이라고 한다

 

F-Measure


 

F - MeasureRecallPrecision의 조화 평균으로 계산해보면 위에 처럼 나온다

https://cdn.educba.com/academy/wp-content/uploads/2019/04/Harmonic-Mean-Formula.jpg

Harmonic Mean은 평균을 구하려는 대상 값들의 역수의 평균을 구한걸 역수 취한 것이다

 

Specificity


 

Power, TNR - True Negative Rate이라고 불리기도 하며

Recall과 비슷하지만 Negative Ground Truth들을 위한 지표이며

실제로 Ground TruthNegative인 데이터들 중에서 옳게 Negative라고 분류한 비율이다

1에서 빼주면 

Ground TruthNegative인 데이터들 중에서 틀린 애들의 비율로

FPR - False Positive Rate 이라고 한다

 

ROC Curve


https://miro.medium.com/v2/resize:fit:1400/0*9h-FJb3PclpQDVQF.png

FPR과 TPR을 축으로 하는 2차원 그래프이다

 

좌표가 (0,0)이면 모두 Negative라고 예측 한 그래프이며

(1,0)는 모두 Positive라고 예측한 비율이다

 

그래서 랜덤하게 예측하는 분류기는 중간을 가로지르는 

밑에 넓이가 0.5인 분류기이며

 

그 넓이를 AUC

Area Under the Curve라고 부른다

 

AUC가 1인 분류기가 매우 이상적인 분류기이며 목표이다

 

https://miro.medium.com/v2/resize:fit:857/1*aBdOAvzxIuVPWB7qZVZogA.png

 

ROC커브와 함께 Precision Recall Curve도 많이 활용된다

반응형