본문 바로가기

스파르타 코딩클럽/[프로젝트] 내일배움캠프 데이터분석 1기

[미니 프로젝트] Netflix 데이터 분석 (1) - 데이터 확인

 

1. 주제 선정

  • OTT 서비스 'Netflix' 데이터 분석 EDA
  • Kaggle의 데이터셋을 둘러보다가 넷플릭스 데이터가 눈에 들어왔다. 평소 영화 감상을 좋아해서 극장과 OTT 서비스에도 관심을 가지고 있는데 누구나 아는 기업이면서 접근이 쉽고 재밌게 분석할 수 있을 것 같아서 주제로 선정했다.

2. 데이터 수집

  • Kaggle, "Netflix Movies and TV Shows", https://www.kaggle.com/datasets/shivamb/netflix-shows/data
  • 해당 데이터셋은 넷플릭스에서 시청 가능한 모든 영화 및 TV Show의 목록과 출연진, 감독, 시청 등급, 개봉 연도 등의 세부 정보로 구성되어 있다.

3. 데이터 확인

#한글 깨짐 방지 폰트 설치 후 런타임 재시작
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
#라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
plt.rc('font', family='NanumBarunGothic') #폰트 설정

#데이터 불러오기
netflix_data = pd.read_csv('netflix_titles.csv')
netflix_data.head()

show_id type title diretor cast country
고유 ID 유형 제목 감독 출연진 제작 국가
date_added release_year rating duration listed_in description
넷플릭스 추가 날짜 실제 개봉 연도 시청 등급 러닝타임/시리즈 수 장르 줄거리
#데이터 정보 확인
netflix_data.info()

 

'release_year' 외 모든 데이터 타입이 object

'date_added' 같은 경우 필요에 따라 datetime으로 데이터 타입 변경

 

 

 

 

 

 

 

 

 

 

 

#결측치 확인
netflix_data.isnull().sum()

 

'director', 'cast', 'country', 'date_added', 'rating', 'duration' 컬럼의 결측치 확인

제거 또는 대체하여 결측치를 제거 후 데이터 분석 진행

 

 

 

 

 

 

 

#결측치 대체
netflix_data['director'].fillna('No data', inplace=True)
netflix_data['cast'].fillna('No data', inplace=True)
netflix_data['country'].fillna('No data', inplace=True)
netflix_data['date_added'].fillna('No data', inplace=True)
netflix_data['rating'].fillna('No data', inplace=True)
netflix_data['duration'].fillna('No data', inplace=True)
netflix_data.isnull().sum()

 

결측치 대체 후 모든 컬럼의 결측치가 0인 것을 재확인

 

 

 

 

 

 

 

 

#모든 컬럼의 시작과 끝 공백 제거
for column in netflix_data.columns:
  if netflix_data[column].dtype == 'object':
    netflix_data[column] = netflix_data[column].str.strip()

 

 

4. 데이터 분석 목적

  • 콘텐츠 유형 분석
  • 콘텐츠 유형별 업데이트 연도 분석
  • 요일별 콘텐츠 업데이트 비율 분석
  • Netflix 장르 Top 10 분석
  • 국가별 콘텐츠 제작 수 Top 10 분석

 


여기까지 넷플릭스 데이터 확인 후 전체적으로 깔끔하게 만들어주는 데이터 전처리 과정을 해주었다.

이후 필요에 따라 데이터를 가공하여 분석에 사용할 계획이다.