Today I Learned

240116 / 데이터 분석 부트캠프 20일차 (내일배움캠프 Data_1기)

sance 2024. 1. 16. 21:25

♣ 이번주 목표 : [기초 프로젝트] SQL을 활용한 데이터 분석하기

  • 데이터 시각화
  • 발표 자료 초안 작성

분석을 마친 데이터를 오랜만에 Python으로 시각화하려니까 다 까먹어서 이전에 정리해 둔 걸 보면서 진행했다.

프로젝트를 진행하다 보면 여러 의견이 나오는데 A안도 맞는 것 같고 B안도 맞는 것 같아서 조율하는 게 힘든 것 같다.

여러 데이터 분석 프로젝트 사례들을 보면서 더 나은 분석 방향을 찾을 수 있는 능력을 향상시키기 위한 공부해야할 것 같다. 

 

문제 상황 및 해결

 

데이터를 불러오는 과정에서 다음과 같은 오류가 발생했다. 데이터 값이 한글이면 불러오는 과정부터 쉽지 않은 것 같다.

역시나 인코딩의 문제였는데 read_csv를 해줄 때 한글 인코딩 방식을 설정해주면 해결된다.

subwayusers_avg = pd.read_csv('/content/2023 역별 평균승객수 순위.csv')
subwayusers_avg.head()

#오류 발생
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 1: invalid start byte

 

read_csv 함수의 encoding 인자에 'cp949'나 'euc-kr'을 사용하면 정상적으로 출력되는 것을 확인할 수 있다.

 'cp949'와 'euc-kr'는 모두 한글 인코딩 방식으로  'cp949'가 'euc-kr'의 확장버전이라고 한다.

subwayusers_avg = pd.read_csv('/content/2023 역별 평균승객수 순위.csv', encoding='cp949')
subwayusers_avg.head()