본문 바로가기

Today I Learned

231220 / 데이터 분석 부트캠프 3일차 (내일배움캠프 Data_1기)

데이터 분석 미니 프로젝트

 

공공자전거 데이터 분석을 진행하는데 데이터 파일도 많고 프로그램 오류도 해결하기엔 아직 능력치가 부족하다고 느껴서 주제를 바꾸기로 하고 카글에서 접근하기 쉬운 데이터를 서치했다. 여러 데이터들 중에 OTT 서비스 넷플릭스 데이터를 선정했다.

 

1. 프로젝트 주제 : OTT 서비스 'Netflix' 데이터 분석

  • 시청 데이터 분석을 통해 유용한 인사이트 도출

2. 데이터 수집

3. 데이터 확인 - Colab 사용 

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

plt.rc('font', family='NanumBarunGothic')

netflix_data = pd.read_csv(‘netflix_titles.csv’)
netflix_imdb = pd.read_csv(‘netflix_imdb.csv’)
netflix_data.head()
netflix_imdb.head()

 

컬럼명을 확인 후 데이터 전처리 과정을 거칠 예정이다.

 


SQL 코드 카타

 

SQL 예제 두 문제를 풀고 새롭게 배운 지식을 정리했다. 추가로 복습 차원에서 풀었던 문제를 다시 풀어보면 좋을 것 같다.

 

SET 변수 선언,
set 부분 이외에 대입연산자 = 을 사용하려면 := 으로 입력
set @변수이름 = 변수 값;
select @변수이름
SELECT 서브쿼리 하나의 열처럼 사용, 데이터의 양이 많을수록 실행속도가 느려지므로 잘 사용하지 않는 명령어
FROM 서브쿼리 하나의 테이블처럼 사용, 열 이름과 테이블명을 꼭 명시해야함
WHERE 서브쿼리 일반 서브쿼리, 가장 대표적인 형태
 

[Code Kata] 프로그래머스 예제 풀이 SQL (231220)

73. 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간

seonah-til.tistory.com