목차
회귀 모델의 성능을 평가하는 데 사용되는 주요 지표들에 대해 자세히 알아보겠습니다. 이 지표들은 모델의 예측이 실제 값과 얼마나 가까운지, 그리고 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 측정합니다.
1. 평균 절대 오차 (Mean Absolute Error, MAE)
MAE는 예측값과 실제값 차이의 절대값 평균을 계산합니다.
수식:
여기서:
- n은 데이터 포인트의 수
- y_i는 실제값
- ŷ_i는 예측값
특징:
- 해석이 직관적이고 쉽습니다.
- 오차의 단위가 원래 변수의 단위와 동일합니다.
- 이상치에 비교적 덜 민감합니다.
사용 사례:
- 예측 오차의 평균적인 크기를 쉽게 이해해야 할 때
- 이상치의 영향을 줄이고 싶을 때
2. 평균 제곱 오차 (Mean Squared Error, MSE)
MSE는 예측값과 실제값 차이의 제곱의 평균을 계산합니다.
수식:
특징:
- 오차를 제곱하므로 큰 오차에 더 큰 가중치를 줍니다.
- 항상 양수이며, 0에 가까울수록 좋은 모델입니다.
- 원래 변수의 단위의 제곱이 됩니다.
사용 사례:
- 큰 오차에 더 민감하게 반응해야 할 때
- 미분 가능하므로 최적화 알고리즘에서 자주 사용됩니다.
3. 제곱근 평균 제곱 오차 (Root Mean Squared Error, RMSE)
RMSE는 MSE의 제곱근입니다.
수식:
특징:
- MSE와 같은 특성을 가지지만, 원래 변수와 같은 단위를 가집니다.
- MAE보다 큰 오차에 더 민감합니다.
- 항상 MAE보다 크거나 같습니다.
사용 사례:
- 오차의 표준편차와 유사한 척도가 필요할 때
- 큰 오차를 펑가하되, 해석 가능한 단위를 유지하고 싶을 때
4. 결정 계수 (R-squared, R²)
R²는 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다.
수식:
여기서:
- ȳ는 y의 평균
특징:
- 0에서 1 사이의 값을 가집니다. (음수가 될 수도 있지만 드뭅니다)
- 1에 가까울수록 모델이 데이터를 잘 설명한다는 의미입니다.
- 독립 변수가 추가될 때마다 증가하는 경향이 있습니다.
사용 사례:
- 모델의 전반적인 적합도를 평가할 때
- 다른 모델들과 비교할 때
- 모델이 설명하는 변동성의 비율을 알고 싶을 때
주의사항:
- R²만으로는 모델의 예측 정확도를 판단하기 어렵습니다.
- 과적합된 모델에서도 높은 R² 값이 나올 수 있으므로, 다른 지표들과 함께 고려해야 합니다.
지표 선택 시 고려사항
- 문제의 특성: 큰 오차에 민감해야 하는 경우 MSE나 RMSE를, 그렇지 않은 경우 MAE를 선택할 수 있습니다.
- 해석의 용이성: MAE와 RMSE는 원래 변수와 같은 단위를 가져 해석이 쉽습니다.
- 이상치의 영향: 이상치에 덜 민감한 지표가 필요하다면 MAE를 고려할 수 있습니다.
- 모델 비교: 여러 모델을 비교할 때는 R²가 유용할 수 있지만, 다른 지표들과 함께 사용해야 합니다.
이러한 지표들을 종합적으로 고려하면 모델의 성능을 더 정확하게 평가할 수 있습니다. 또한, 교차 검증 등의 기법을 사용하여 모델의 일반화 능력도 함께 평가하는 것이 중요합니다.
'AI > Naver_Boostcamp AI Tech' 카테고리의 다른 글
Sketch 데이터셋을 활용한 Image Classfication (2) | 2024.09.29 |
---|---|
네부캠 AI_tech [4Week] 회고 (1) | 2024.09.01 |
머신러닝 라이프사이클: 인공지능 프로젝트의 전체 과정 이해하기 (0) | 2024.08.12 |
텐서 연산 마스터하기: 기본부터 고급까지(2) (# 3일차-2) (0) | 2024.08.07 |
텐서 연산 마스터하기: 기본부터 고급까지(1) (# 3일차-1) (0) | 2024.08.07 |