평가 지표는 크게 분류를 위한 지표와 회귀를 위한 지표로 나눌 수 있음.
라벨 불균형이 있는 데이터에선 사용하면 안 됨
ex) 0과 1의 비율이 9:1인 데이터가 있다고 했을 때, 모두 0으로 예측하면 정확도가 90%가 나올 것임 → 잘못된 판단
: 긍정 데이터 예측 성능에 초점을 맞춘 평가 지표
정밀도: 예측을 긍정으로 한 데이터 중 실제로 긍정인 비율
(검출된 결과가 얼마나 정확한지 즉, 검출 결과들 중 실체 물체가 얼마나 포함되어 있는지)
(’실제론 틀린데 맞다고 예측되는 것(위양성)’의 위험성이 높아 이를 최소화 해야 하는 경우)
(ex. 채용 과정에서 실력있는 사람들이 떨어지는 것은 아쉽지만, 혹시나 실력 없는 사람이 입사하는 것을 방지하는 것이 더 중요함)
재현율: 실제로 긍정인 데이터 중 긍정으로 예측한 비율 (TPR: True Positive Rate)
(대상 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지)
(’실제론 맞는데 틀리다고 예측되는 것(위음성)’의 위험성이 높아 이를 최소화 해야 하는 경우)
(ex. 119 전화 대응: 장난전화의 의심이 커도 혹시 실제 상황일 것을 대비하여 출동을 함)
정밀도와 재현율은 trade-off 관계를 갖는다.
ex)
스팸 문자 판별 Task에선 precision이 쓰일 수 있음.
암인지 아닌지를 구분하는 Task에선 recall이 쓰임
→ 실제로 암인데 암이 아니라고 예측하면 큰일나기 때문
: 정밀도와 재현율을 한 쪽에 치우치지 않고 둘 다 균형을 이루는 것(둘 다 고려하는 것)