Today I Learned

240201 / 데이터 분석 부트캠프 32일차 (내일배움캠프 Data_1기)

sance 2024. 2. 2. 16:18

♣ 이번주 목표 : 데이터 분석 입문 - 머신러닝

  • '머신러닝의 이해와 라이브러리 활용 심화' 강의 수강
  • 머신러닝 개인 과제 풀이

교차 검증(Cross Validatoin)

  • 데이터 셋을 여러 개의 하위 집합으로 나누어 돌아가면서 검증 데이터로 사용하는 방법 > 과적합 예방?
  • K-Fold Validation
    • Train Data를 K개의 하위 집합으로 나누어 모델을 학습시키고 최적화하는 방법
    • K는 분할 개수
    • 데이터가 부족할 경우 유용함 (반복 학습)
    • 함수
      • sklearn.model_selection.KFold
      • sklearn.model_selection.StrifiedKFold : 불균형한 레이블(Y)을 가지고 있을 때 사용

 

하이퍼 파라미터 자동적용 - GridSearchV

  • 하이퍼 파라미터(Hyper Parameter)  : 모델을 구성하는 입력 값 중 사람이 임의적으로 바꿀 수 있는 입력 값
  • 하이퍼 파라미터에는 다양한 값을 넣고 실험할 수 있기 때문에 이를 자동화해주는 Grid Search를 적용해볼 수 있다.

 

전체 데이터 분석 프로세스 정리