Today I Learned
240116 / 데이터 분석 부트캠프 20일차 (내일배움캠프 Data_1기)
sance
2024. 1. 16. 21:25
♣ 이번주 목표 : [기초 프로젝트] SQL을 활용한 데이터 분석하기
- 데이터 시각화
- 발표 자료 초안 작성
분석을 마친 데이터를 오랜만에 Python으로 시각화하려니까 다 까먹어서 이전에 정리해 둔 걸 보면서 진행했다.
프로젝트를 진행하다 보면 여러 의견이 나오는데 A안도 맞는 것 같고 B안도 맞는 것 같아서 조율하는 게 힘든 것 같다.
여러 데이터 분석 프로젝트 사례들을 보면서 더 나은 분석 방향을 찾을 수 있는 능력을 향상시키기 위한 공부해야할 것 같다.
문제 상황 및 해결
데이터를 불러오는 과정에서 다음과 같은 오류가 발생했다. 데이터 값이 한글이면 불러오는 과정부터 쉽지 않은 것 같다.
역시나 인코딩의 문제였는데 read_csv를 해줄 때 한글 인코딩 방식을 설정해주면 해결된다.
subwayusers_avg = pd.read_csv('/content/2023 역별 평균승객수 순위.csv')
subwayusers_avg.head()
#오류 발생
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 1: invalid start byte
read_csv 함수의 encoding 인자에 'cp949'나 'euc-kr'을 사용하면 정상적으로 출력되는 것을 확인할 수 있다.
'cp949'와 'euc-kr'는 모두 한글 인코딩 방식으로 'cp949'가 'euc-kr'의 확장버전이라고 한다.
subwayusers_avg = pd.read_csv('/content/2023 역별 평균승객수 순위.csv', encoding='cp949')
subwayusers_avg.head()