본문 바로가기

스파르타 코딩클럽/[강의] 머신러닝

[머신러닝 기초] 로지스틱회귀 이론

범주형 Y에서 선형함수의 한계

  • X가 연속형 변수이고 Y가 특정 값이 될 확률이라고 설정한다면 선형으로 설명하기 쉽지 않음
  • 확률은 0과 1 사이인데 예측값이 확률 범위를 넘어갈 수 있는 문제가 있음
  • S자 형태의 함수를 적용하면 설명 가능

 

로짓 개념의 등장

  • 오즈비(Odds ratio) 개념 적용
    : 실패확률 대비 성공확률
  • Logit
    : P는 확률 값으로 0과 1 사이의 값인데 P가 증가할수록 오즈비가 급격하게 증가하기 때문에 선형성을 따르지 않음
     따라서 log를 씌워 이 부분을 완화
  • 오즈비와 확률의 관계 / 로짓과 확률의 관계
    • 로짓 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨
    • 확률이 증가할수록 오즈비(좌)는 급격히 발산, 로짓(우)은 완만하게 증가

    • 위의 확률-로짓 그래프 X-Y축 교체 / 로지스틱 함수
  • 로짓과 기존 선형회귀의 우변을 합쳐 다음과 같은 식 도출
  • 로짓의 장점은 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률(Y값이 특정 값일 확률)이 0과 1 사이로 들어오게 하는 특징을 가지게 된다.
  • 로지스틱함수는 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 됨

 

정확도의 한계

  • 극단적인 예시
    : 암 예측 모델 - 모든 환자가 음성(정상인)이라고 판정
    • 100명의 환자 입실, 95명은 음성(정상), 5명은 양성(암 환자)
    • 위의 경우 암 예측 모델의 정확도는 95%
    • 그러나 실제 양성(암 환자)는 하나도 맞추지 못함 

 

혼동 행렬(Confusion Matrix)

  • 실제 값과 예측 값에 대한 모든 경우의 수를 표현하기 위한 2x2 행렬
  • 표기법
    • 실제와 예측이 같으면 True, 다르면 False
    • 예측을 양성으로 했으면 Positive, 음성으로 했으면 Negative
  • 해석
    • TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
    • FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
    • FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
    • TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수
  • 지표
    • 정밀도(Precision) : 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(모델의 관점)
    • 재현율(Recall) : 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(데이터의 관점)
    • F1-Score : 정밀도와 재현율의 조화 평균
    • 정확도(Accuracy)
  • 암 예측 모델에 적용
    • TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수 → 0명
    • FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수 → 0명
    • FN: 실제로 양성(암 환자)이지만 음성(정상인)이라고 분류된 수 → 5명
    • TN: 실제로 음성(정상인)이면서 음성(정상인)이라고 분류된 수 → 95명
      • 정밀도는 정의되지 않음(divsion by zero), 재현율은 0
      • 결과적으로 f1-score는 0
  • 위처럼 정확도가 제 기능을 못하는 때(특히 Y값이 unbalance 할 때)에는 Y 범주의 비율을 맞춰주거나 평가 지표를 F1-Score를 사용함으로써 이를 보완