본문 바로가기

스파르타 코딩클럽/[강의] 머신러닝

[머신러닝 기초] 선형회귀 이론과 회귀분석 평가지표

선형회귀 용어 정리

  • X는 종속 변수, 결과 변수
  • Y는 독립 변수, 원인 변수, 설명 변수
  • 통계학에서 사용하는 선형회귀 식


  • 머신러닝/딥러닝에서 사용하는 선형회귀 식
  • 즉, 회귀 계수 혹은 가중치의 값을 알면  X가 주어졌을 때 Y를 알 수 있다.

 

회귀 평가지표 MSE

  • 에러 정의 방법
    1. 에러 = 실제 데이터 - 예측 데이터
    2. 에러를 제곱하여 모두 양수로 만든 후 합치기
    3. 데이터만큼 나누기
  • 에러 정의 방법 수식화
    • y : 실제(True) 값
    • i : 1~n까지의 수
    • ^ : hat이라고 하며, 예측(혹은 추정)한 수치에 표기
  • 이를 Mean Squared Erorr(MSE)라고 정의

 

선형회귀 평가 지표 R Square

  • 숫자를 예측하는 회귀분석에서, 선형회귀에서만 평가되는 지표
  • 전체 모형에서 회귀선으로 설명할 수 있는 정도를 뜻함
  • 기초 용어
    • SSE는 작을수록 SSR은 클수록 좋음
  • R Square의 정의
  • 3번의 데이터 값은 SST = 174^2, SSR = 169^2
    • 해당 값에 대한 설명력 = 94%
    • 단, 모든 데이터에 대해서 위 계산을 수행