• Confusion matrix, Recall(재현율),Precision(정밀도), Accuracy(정확도)

    2020. 10. 25. 19:57

    by. 위지원

    통계적으로 유의미함의 여부를 결정하는 방법에는 Recall(재현율),Precision(정밀도), Accuracy(정확도)가 있다. 본 방법을 설명하기에 앞서 Confusion matrix를 알아야하는데, 이는 아래와 같다.

     

    실제 답

    True

    False

    분류 결과

    True

    True Positive

    False Positive

    False

    False Negative

    True Negative

     

    이를 이용하여 재현율, 정밀도, 정확도를 계산할 수 있다.

    Recall은 실제 답이True 인 것 중 True로 분류한 것의 비율이다. 공식은 다음과 같다.

    True PositiveTrue /Positive+False Negative

    Precision은 모델이 True로 분류한 것중 실제 True인 것의 비율이다.

    공식은 다음과 같다.

    True PositiveTrue/ Positive+False Positive

     

    두 모델은 상호보완해 사용하여야 한다. False Positive를 극단적으로 줄여 True Negative를 상대적으로 올리는 경우를 피하기 위해서다. 예를 들어 충북대에 돌아다니는 사람 50명 중 확실하게 학생증을 목에 걸고 다니는 학생 2-3명만 예측하는 모델은 좋은 모델이 아니다.

     

    AccuracyTrueFalse 모두 정확하게 예측한 경우다. 공식은 다음과 같다.

    True Positive+True NegativeTrue /Positive+False Positive+False Negitive+True Negative

    profile
    위지원

    데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

    '2020년 > Development' 카테고리의 다른 글