본문 바로가기

스파르타 코딩클럽

(39)
[머신러닝 기초] 회귀와 분류 정리 선형회귀와 로지스틱회귀의 공통점 모델 생성이 쉬움 가중치(혹은 회귀계수)를 통한 해석이 쉬운 장점이 있음 X 변수에 범주형, 수치형 변수 둘 다 사용 가능 선형회귀와 로지스틱 분류 차이점 선형회귀(회귀) 로지스틱회귀(분류) Y(종속변수) 수치형 범주형 평가척도 Mean Square Error (MSE) R Square(선형회귀만) Accuracy F1-Score sklearn 모델 클래스 sklearn.linear_model.linearRegression sklearn.linear_model.LogistricRegression sklearn 평가 클래스 sklearn.metrics.mean_squared_error sklearn.metrics.r2_score sklearn.metrics.accuracy_..
[머신러닝 기초] 로지스틱회귀 이론 범주형 Y에서 선형함수의 한계 X가 연속형 변수이고 Y가 특정 값이 될 확률이라고 설정한다면 선형으로 설명하기 쉽지 않음 확률은 0과 1 사이인데 예측값이 확률 범위를 넘어갈 수 있는 문제가 있음 S자 형태의 함수를 적용하면 설명 가능 로짓 개념의 등장 오즈비(Odds ratio) 개념 적용 : 실패확률 대비 성공확률 Logit : P는 확률 값으로 0과 1 사이의 값인데 P가 증가할수록 오즈비가 급격하게 증가하기 때문에 선형성을 따르지 않음 따라서 log를 씌워 이 부분을 완화 오즈비와 확률의 관계 / 로짓과 확률의 관계 로짓 그래프가 더 선형적인 그림을 나타내어 선형회귀의 기본식을 활용할 수 있게 됨 확률이 증가할수록 오즈비(좌)는 급격히 발산, 로짓(우)은 완만하게 증가 위의 확률-로짓 그래프 X-..
[머신러닝 기초] 선형회귀의 가정과 정리 머신러닝모델 중에서 선형회귀는 이해하기 쉽고 방법도 쉬운 장점이 있다. 말 그대로 x-y 변수간의 선형적 관계가 좋아야만 좋은 성능을 낸다 선형회귀의 가정 1. 선형성(Linearity) 종속 변수(Y)와 독립 변수(X) 간의 선형 관계가 존재해야 함 2. 등분산성(Homoscedasticity) 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함 즉, 오차가 특정 패턴을 보여서는 안되며, 독립변수의 값에 상관없이 일정해야 함 3. 정규성(Normality) 오차 항은 정규 분포를 따라야 함 4. 독립성(Independence) X 변수는 서로 독립적이어야 함 다중공산성 문제 : 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것 다중공산성 해결 방법 서로 상관관계가 높은 변수 중 하나만 선..
[머신러닝 기초] 다중선형회귀와 범주형 데이터 실습 선형회귀 단순선형회귀 : x 변수가 1개 다중선형회귀 : x 변수가 2 수치형 데이터 vs 범주형 데이터 수치형 데이터 연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터 ex) 키, 몸무게 이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터 ex) 주사위 눈, 나이 범주형 데이터 순서형 자료 : 자료의 순서가 의미 있음 ex) 학점, 등급 명목형 자료 : 자료의 순서가 의미 없음 ex) 혈액형, 성별 범주형 데이터 실습 머신러닝 모델에 데이터를 훈련시키려면 해당 데이터를 숫자로 바꿔야 함 성별, 날짜와 같은 데이터를 범주형 데이터라고 부르며 임의로 숫자로 바꿀 수 있음 >> 이를 Encoding 과정이라 함 # Female 0, Male 1 def get_sex(x): if x =..
[머신러닝 기초] 선형회귀 실습 키-몸무게 데이터 실습 # 라이브러리 설치 !pip install scikit-learn !pip install numpy !pip install pandas !pip install matplotlib !pip install seaborn import sklearn import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # dictionary 형태로 데이터 생성 weights = [87, 81, 82, 92, 90, 61, 86, 66, 69, 69] heights = [187, 174, 179, 192, 188, 160, 179, 168, 168, 174] body_df = pd.DataFra..
[머신러닝 기초] 선형회귀 이론과 회귀분석 평가지표 선형회귀 용어 정리 X는 종속 변수, 결과 변수 Y는 독립 변수, 원인 변수, 설명 변수 통계학에서 사용하는 선형회귀 식 머신러닝/딥러닝에서 사용하는 선형회귀 식 즉, 회귀 계수 혹은 가중치의 값을 알면 X가 주어졌을 때 Y를 알 수 있다. 회귀 평가지표 MSE 에러 정의 방법 에러 = 실제 데이터 - 예측 데이터 에러를 제곱하여 모두 양수로 만든 후 합치기 데이터만큼 나누기 에러 정의 방법 수식화 y : 실제(True) 값 i : 1~n까지의 수 ^ : hat이라고 하며, 예측(혹은 추정)한 수치에 표기 이를 Mean Squared Erorr(MSE)라고 정의 선형회귀 평가 지표 R Square 숫자를 예측하는 회귀분석에서, 선형회귀에서만 평가되는 지표 전체 모형에서 회귀선으로 설명할 수 있는 정도를 ..
[기초 프로젝트] 데이팅 앱 지하철 광고 전략 (2) - 데이터 시각화 및 결론 5. 데이터 시각화 1) 2023 역별 하루 평균 승객수 순위 #세로 그래프 import pandas as pd import matplotlib.pyplot as plt import numpy as np import seaborn as sns import warnings plt.rc('font', family='NanumBarunGothic') subwayusers_avg = pd.read_csv('/content/2023 역별 평균승객수 순위.csv', encoding='cp949') top20_subway=subwayusers_avg.head(20) plt.figure(figsize=(18,6)) plt.bar(top20_subway['역명'],top20_subway['평균 승객수 총합']) plt...
[기초 프로젝트] 데이팅 앱 지하철 광고 전략 (1) - 데이터 수집 및 가공 1. 주제 선정 2030 타깃으로 한 데이팅 앱 지하철 PSD 광고 진행 시 최적의 역사 선정 데이팅 앱 타깃층 특성에 기반해 광고 효과를 효율적으로 낼 수 있는 역사 분석 상황 설정 B07팀은 데이팅 앱을 개발한 스타트업 기업의 마케팅 팀 해당 앱은 2030 청년층을 타깃으로 제작 '위피' 성공사례를 기반으로 여성과 남성 유저의 성비를 맞추는 것이 목표 2. 가설 설정 목표 : 2030 여성에게 최대 광고 노출 승하차 수가 많을수록 광고 효과가 높을 것이다. 청년 인구 비중이 높은 지역일수록 광고 효과가 높을 것이다. 청년 중 여성 인구 비중이 높은 지역이 목표 달성에 효과적일 것이다. 유동인구가 많은 홍대역, 강남역의 승하차 수가 많을 것이다. 신림역, 서울대입구역의 청년 인구 비중이 높을 것이다. ..
[데이터 리터러시] 데이터 활용 및 해석 역량 키우기 데이터 리터러시 데이터를 읽고 이해하는 능력 데이터를 비판적으로 분석하는 능력 결과를 의사소통에 활용할 수 있는 능력 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어 줌 상관관계와 인과관계 상관관계 두 변수가 얼마나 상호 의존적인지 파악 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름 인과관계 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태 원인과 결과가 명확 상관관계만으로 섣불리 의사결정 X 양쪽 모두 활용하여 합리적인 의사판단 하기 데이터 분석 접근법 문제 및 가설 정의 (생각) 데이터 분석 (작업) 결과 해석 및 액션 도출 (생각) (생각)이 주요한 단계에서 데이터 리터러시가 필요 문제 정의 분석하려는 특정 상황이나 현상에 대한 명확하고 구체..
[SQLD 자격증 대비반] 챕터 2. 데이터 모델링 모델링의 이해 DB에서의 모델은 RDBMS에서 지원하는 DB의 구조나 형식 데이터 모델링 - 정보 시스템 구축을 위해 데이터 관점의 업무를 분석 - 현실의 데이터를 약속된 표기법에 의해 표현 - DB 구축을 위한 분석 및 설계의 과정 개발을 위해서만 데이터 모델링 하는 것 X 분석 모델을 통해 실제 DB를 생성하여 데이터 관리 데이터 모델 기능 시각화 : 시스템을 원하는 모습으로 시각화 문서화 : 시스템의 구조와 행동을 문서화 구체화 : 특정 목표에 따라 구체화된 표현 방법 제공 구조화된 틀 제공 다양한 관점 제공 모델링 특징 추상화 : 현실 데이터를 일정한 형식에 맞춰 표현 단순화 : 복잡한 현실 데이터를 약속된 규칙에 기반해 제한된 표현법이나 언어로 표현 명확화 : 대상에 대한 애매함을 제거하고 현상..