[머신러닝 심화] 데이터 분석 프로세스 - 데이터 수집 및 EDA

스파르타 코딩클럽/[강의] 머신러닝

[머신러닝 심화] 데이터 분석 프로세스 - 데이터 수집 및 EDA

sance 2024. 1. 31. 13:42

데이터 수집

Data Source
- OLTP Databases : OnLine Transaction Processing은 온라인 뱅킹, 쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션 처리 유형
- Enterprise Applications : 회사 내 데이터 ( ex. 고객 관계 데이터, 제품 마케팅 세일즈)
- Third-Party : Google Analytics와 같은 외부소스에서 수집되는 데이터
- Web/Log : 사용자의 로그데이터
Data Lake : 원시 형태의 다양한 유형의 데이터 저장
Data Warehouse : 보다 구조화된 형태로 정제된 데이터 저장
Data Marts : 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터
BI/Analytics : Business Intelligence는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스

# 실제 데이터 수집

회사 내 데이터가 존재 ➡️ SQL 혹은 Python을 통해 데이터 마트 생성
회사 내 데이터 없음 ➡️ 데이터 수집 필요
- 방법 1 : CSV, EXCEL 파일 다운로드
- 방법 2 : API를 이용한 데이터 수집
- 방법 3 : Data Crawling

탐색적 데이터 분석(EDA)

데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정
이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있다.

# 기술통계를 통한 EDA 예시

tips.describe()
➡️ include='all' 옵션을 통해 범주형 데이터도 확인 가능

# 시각화를 통한 EDA 예시

Countplot
- 범주형 데이터의 각 카테고리별 빈도수를 시각화
- x축 : 범주형 자료
- y축 : 자료의 빈도수

Barplot
- 범주형 데이터의 각 카테고리에 따른 수치 데이터 평균을 비교
- x축 : 범주형 자료
- y축 : 연속형 자료

Boxplot
- 데이터의 분포, 중앙값, 사분위수, 이상치 등을 한눈에 표현하고싶을 때
- x축 : 수치형 or 범주형 자료
- y축 : 수치형 자료

Histogram
- 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움
- x축 : 수치형 자료
- y축 : 자료의 빈도수

Scatterplot
- 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때
- x축 : 수치형 자료
- y축 : 수치형 자료

Pairplot
- 한번에 여러개의 변수를 동시에 시각화하고 싶을 때
- x축 : 범주형 or 수치형 자료
- y축 : 범주형 or 수치형 자료
- 대각선 : 히스토그램(분포)