pandas(2)
-
Python 데이터 분석(2)
이번 블로그는 지난 블로그보다 조금 더 복잡한 데이터를 다루기로 하자. 사용할 데이터는 상가에 대한 분류명,업소번호,도로명, 시군구 등 39개의 column을 가지는 데이터를 다룬다. 우선 저번과 마찬가지로 Python의 Pandas 라이브러리를 이용하여 csv파일을 읽어들이자. 다음과 같이 읽어들인 데이터는 여러가지 column에 의해서 나뉘며, 데이터의 수도 상당하다. 이렇게 Column이 많은 데이터의 경우 이를 확인하는 방법이 있는데 다음과 같다. list(변수 이름) ##len(list(변수이름))으로 list의 숫자도 파악할 수 있다. 또한 하나의 칼럼에서 분류되는 특징이 어떤 것이 있는지 알 수 있는 방법도 있다. set(변수이름['칼럼 이름']) 필자는 가지고 있는 데이터에서 구에 따른 치..
2021.07.17 -
Python 데이터 분석(3)
오늘은 필자가 수강중인 코딩클럽에서 수강자들이 왜 강의를 수강 도중 포기하는가 그리고 어떤 부분이 문제인가를 파악하기 위해서 강의에 따른 수강완료 수의 합계 그리고 요일에 따른 수강완료 수의 합계에 대한 데이터를 추출하였다. 여느때와 같이 Pandas와 Matplotlib을 사용하였다. import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.family'] = 'Malgun Gothic' enroll = pd.read_csv('./data/enrolleds_detail.csv') enroll_detail = enroll.groupby('lecture_id')['user_id'].count() lectures=pd.read_csv('...
2021.07.17