john8538 님의 블로그

회귀 모델 평가 지표 본문

AI/Naver_Boostcamp AI Tech

회귀 모델 평가 지표

john8538 2024. 8. 12. 20:40
회귀 모델의 성능을 평가하는 데 사용되는 주요 지표들에 대해 자세히 알아보겠습니다. 이 지표들은 모델의 예측이 실제 값과 얼마나 가까운지, 그리고 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 측정합니다.

1. 평균 절대 오차 (Mean Absolute Error, MAE)

MAE는 예측값과 실제값 차이의 절대값 평균을 계산합니다.

수식:

여기서:

  • n은 데이터 포인트의 수
  • y_i는 실제값
  • ŷ_i는 예측값

특징:

  • 해석이 직관적이고 쉽습니다.
  • 오차의 단위가 원래 변수의 단위와 동일합니다.
  • 이상치에 비교적 덜 민감합니다.

사용 사례:

  • 예측 오차의 평균적인 크기를 쉽게 이해해야 할 때
  • 이상치의 영향을 줄이고 싶을 때

2. 평균 제곱 오차 (Mean Squared Error, MSE)

MSE는 예측값과 실제값 차이의 제곱의 평균을 계산합니다.

수식:

특징:

  • 오차를 제곱하므로 큰 오차에 더 큰 가중치를 줍니다.
  • 항상 양수이며, 0에 가까울수록 좋은 모델입니다.
  • 원래 변수의 단위의 제곱이 됩니다.

사용 사례:

  • 큰 오차에 더 민감하게 반응해야 할 때
  • 미분 가능하므로 최적화 알고리즘에서 자주 사용됩니다.

3. 제곱근 평균 제곱 오차 (Root Mean Squared Error, RMSE)

RMSE는 MSE의 제곱근입니다.

수식:

특징:

  • MSE와 같은 특성을 가지지만, 원래 변수와 같은 단위를 가집니다.
  • MAE보다 큰 오차에 더 민감합니다.
  • 항상 MAE보다 크거나 같습니다.

사용 사례:

  • 오차의 표준편차와 유사한 척도가 필요할 때
  • 큰 오차를 펑가하되, 해석 가능한 단위를 유지하고 싶을 때

4. 결정 계수 (R-squared, R²)

R²는 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다.

수식:

여기서:

  • ȳ는 y의 평균

특징:

  • 0에서 1 사이의 값을 가집니다. (음수가 될 수도 있지만 드뭅니다)
  • 1에 가까울수록 모델이 데이터를 잘 설명한다는 의미입니다.
  • 독립 변수가 추가될 때마다 증가하는 경향이 있습니다.

사용 사례:

  • 모델의 전반적인 적합도를 평가할 때
  • 다른 모델들과 비교할 때
  • 모델이 설명하는 변동성의 비율을 알고 싶을 때

주의사항:

  • R²만으로는 모델의 예측 정확도를 판단하기 어렵습니다.
  • 과적합된 모델에서도 높은 R² 값이 나올 수 있으므로, 다른 지표들과 함께 고려해야 합니다.

지표 선택 시 고려사항

  1. 문제의 특성: 큰 오차에 민감해야 하는 경우 MSE나 RMSE를, 그렇지 않은 경우 MAE를 선택할 수 있습니다.
  2. 해석의 용이성: MAE와 RMSE는 원래 변수와 같은 단위를 가져 해석이 쉽습니다.
  3. 이상치의 영향: 이상치에 덜 민감한 지표가 필요하다면 MAE를 고려할 수 있습니다.
  4. 모델 비교: 여러 모델을 비교할 때는 R²가 유용할 수 있지만, 다른 지표들과 함께 사용해야 합니다.

이러한 지표들을 종합적으로 고려하면 모델의 성능을 더 정확하게 평가할 수 있습니다. 또한, 교차 검증 등의 기법을 사용하여 모델의 일반화 능력도 함께 평가하는 것이 중요합니다.