1. 주제 선정
- OTT 서비스 'Netflix' 데이터 분석 EDA
- Kaggle의 데이터셋을 둘러보다가 넷플릭스 데이터가 눈에 들어왔다. 평소 영화 감상을 좋아해서 극장과 OTT 서비스에도 관심을 가지고 있는데 누구나 아는 기업이면서 접근이 쉽고 재밌게 분석할 수 있을 것 같아서 주제로 선정했다.
2. 데이터 수집
- Kaggle, "Netflix Movies and TV Shows", https://www.kaggle.com/datasets/shivamb/netflix-shows/data
- 해당 데이터셋은 넷플릭스에서 시청 가능한 모든 영화 및 TV Show의 목록과 출연진, 감독, 시청 등급, 개봉 연도 등의 세부 정보로 구성되어 있다.
3. 데이터 확인
#한글 깨짐 방지 폰트 설치 후 런타임 재시작
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
#라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
plt.rc('font', family='NanumBarunGothic') #폰트 설정
#데이터 불러오기
netflix_data = pd.read_csv('netflix_titles.csv')
netflix_data.head()
show_id | type | title | diretor | cast | country |
고유 ID | 유형 | 제목 | 감독 | 출연진 | 제작 국가 |
date_added | release_year | rating | duration | listed_in | description |
넷플릭스 추가 날짜 | 실제 개봉 연도 | 시청 등급 | 러닝타임/시리즈 수 | 장르 | 줄거리 |
#데이터 정보 확인
netflix_data.info()
'release_year' 외 모든 데이터 타입이 object
'date_added' 같은 경우 필요에 따라 datetime으로 데이터 타입 변경
#결측치 확인
netflix_data.isnull().sum()
'director', 'cast', 'country', 'date_added', 'rating', 'duration' 컬럼의 결측치 확인
제거 또는 대체하여 결측치를 제거 후 데이터 분석 진행
#결측치 대체
netflix_data['director'].fillna('No data', inplace=True)
netflix_data['cast'].fillna('No data', inplace=True)
netflix_data['country'].fillna('No data', inplace=True)
netflix_data['date_added'].fillna('No data', inplace=True)
netflix_data['rating'].fillna('No data', inplace=True)
netflix_data['duration'].fillna('No data', inplace=True)
netflix_data.isnull().sum()
결측치 대체 후 모든 컬럼의 결측치가 0인 것을 재확인
#모든 컬럼의 시작과 끝 공백 제거
for column in netflix_data.columns:
if netflix_data[column].dtype == 'object':
netflix_data[column] = netflix_data[column].str.strip()
4. 데이터 분석 목적
- 콘텐츠 유형 분석
- 콘텐츠 유형별 업데이트 연도 분석
- 요일별 콘텐츠 업데이트 비율 분석
- Netflix 장르 Top 10 분석
- 국가별 콘텐츠 제작 수 Top 10 분석
여기까지 넷플릭스 데이터 확인 후 전체적으로 깔끔하게 만들어주는 데이터 전처리 과정을 해주었다.
이후 필요에 따라 데이터를 가공하여 분석에 사용할 계획이다.
'스파르타 코딩클럽 > [프로젝트] 내일배움캠프 데이터분석 1기' 카테고리의 다른 글
[기초 프로젝트] 데이팅 앱 지하철 광고 전략 (2) - 데이터 시각화 및 결론 (0) | 2024.01.19 |
---|---|
[기초 프로젝트] 데이팅 앱 지하철 광고 전략 (1) - 데이터 수집 및 가공 (0) | 2024.01.19 |
[미니 프로젝트] Netflix 데이터 분석 (2) - EDA 및 결론 (1) | 2023.12.21 |