Today I Learned
240201 / 데이터 분석 부트캠프 32일차 (내일배움캠프 Data_1기)
sance
2024. 2. 2. 16:18
♣ 이번주 목표 : 데이터 분석 입문 - 머신러닝
- '머신러닝의 이해와 라이브러리 활용 심화' 강의 수강
- 머신러닝 개인 과제 풀이
교차 검증(Cross Validatoin)
- 데이터 셋을 여러 개의 하위 집합으로 나누어 돌아가면서 검증 데이터로 사용하는 방법 > 과적합 예방?
- K-Fold Validation
- Train Data를 K개의 하위 집합으로 나누어 모델을 학습시키고 최적화하는 방법
- K는 분할 개수
- 데이터가 부족할 경우 유용함 (반복 학습)
- 함수
- sklearn.model_selection.KFold
- sklearn.model_selection.StrifiedKFold : 불균형한 레이블(Y)을 가지고 있을 때 사용
하이퍼 파라미터 자동적용 - GridSearchV
- 하이퍼 파라미터(Hyper Parameter) : 모델을 구성하는 입력 값 중 사람이 임의적으로 바꿀 수 있는 입력 값
- 하이퍼 파라미터에는 다양한 값을 넣고 실험할 수 있기 때문에 이를 자동화해주는 Grid Search를 적용해볼 수 있다.
전체 데이터 분석 프로세스 정리
