AI/Naver_Boostcamp AI Tech

회귀 모델 평가 지표

john8538 2024. 8. 12. 20:40

목차

    회귀 모델의 성능을 평가하는 데 사용되는 주요 지표들에 대해 자세히 알아보겠습니다. 이 지표들은 모델의 예측이 실제 값과 얼마나 가까운지, 그리고 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 측정합니다.

    1. 평균 절대 오차 (Mean Absolute Error, MAE)

    MAE는 예측값과 실제값 차이의 절대값 평균을 계산합니다.

    수식:

    여기서:

    • n은 데이터 포인트의 수
    • y_i는 실제값
    • ŷ_i는 예측값

    특징:

    • 해석이 직관적이고 쉽습니다.
    • 오차의 단위가 원래 변수의 단위와 동일합니다.
    • 이상치에 비교적 덜 민감합니다.

    사용 사례:

    • 예측 오차의 평균적인 크기를 쉽게 이해해야 할 때
    • 이상치의 영향을 줄이고 싶을 때

    2. 평균 제곱 오차 (Mean Squared Error, MSE)

    MSE는 예측값과 실제값 차이의 제곱의 평균을 계산합니다.

    수식:

    특징:

    • 오차를 제곱하므로 큰 오차에 더 큰 가중치를 줍니다.
    • 항상 양수이며, 0에 가까울수록 좋은 모델입니다.
    • 원래 변수의 단위의 제곱이 됩니다.

    사용 사례:

    • 큰 오차에 더 민감하게 반응해야 할 때
    • 미분 가능하므로 최적화 알고리즘에서 자주 사용됩니다.

    3. 제곱근 평균 제곱 오차 (Root Mean Squared Error, RMSE)

    RMSE는 MSE의 제곱근입니다.

    수식:

    특징:

    • MSE와 같은 특성을 가지지만, 원래 변수와 같은 단위를 가집니다.
    • MAE보다 큰 오차에 더 민감합니다.
    • 항상 MAE보다 크거나 같습니다.

    사용 사례:

    • 오차의 표준편차와 유사한 척도가 필요할 때
    • 큰 오차를 펑가하되, 해석 가능한 단위를 유지하고 싶을 때

    4. 결정 계수 (R-squared, R²)

    R²는 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다.

    수식:

    여기서:

    • ȳ는 y의 평균

    특징:

    • 0에서 1 사이의 값을 가집니다. (음수가 될 수도 있지만 드뭅니다)
    • 1에 가까울수록 모델이 데이터를 잘 설명한다는 의미입니다.
    • 독립 변수가 추가될 때마다 증가하는 경향이 있습니다.

    사용 사례:

    • 모델의 전반적인 적합도를 평가할 때
    • 다른 모델들과 비교할 때
    • 모델이 설명하는 변동성의 비율을 알고 싶을 때

    주의사항:

    • R²만으로는 모델의 예측 정확도를 판단하기 어렵습니다.
    • 과적합된 모델에서도 높은 R² 값이 나올 수 있으므로, 다른 지표들과 함께 고려해야 합니다.

    지표 선택 시 고려사항

    1. 문제의 특성: 큰 오차에 민감해야 하는 경우 MSE나 RMSE를, 그렇지 않은 경우 MAE를 선택할 수 있습니다.
    2. 해석의 용이성: MAE와 RMSE는 원래 변수와 같은 단위를 가져 해석이 쉽습니다.
    3. 이상치의 영향: 이상치에 덜 민감한 지표가 필요하다면 MAE를 고려할 수 있습니다.
    4. 모델 비교: 여러 모델을 비교할 때는 R²가 유용할 수 있지만, 다른 지표들과 함께 사용해야 합니다.

    이러한 지표들을 종합적으로 고려하면 모델의 성능을 더 정확하게 평가할 수 있습니다. 또한, 교차 검증 등의 기법을 사용하여 모델의 일반화 능력도 함께 평가하는 것이 중요합니다.