데이터 및 이미지 출처
https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
데이터 불러오기
필드(컬럼), 행/열 개수 확인
컬럼별 누락값 확인
투숙객 이름과 호스트 이름에 누락값이 있다.
위 두개 컬럼은 분석에 있어서 중요하니 누락값이 있는 행을 삭제하자.
이 데이터프레임에서 재밌는 점은 위도와 경도를 알 수 있다는 것이다.
위도와 경도를 산점도에 이용하면 뉴욕의 지도처럼 나타난다.
위도와 경도로 지도 그리기
뉴욕에서 airbnb를 운영하는 위치를 볼 수 있는 지도를 만들었다.
가격별로 색 조정
pandas로 scatter를 그릴 때
c옵션이나 colorbar=True를 이용해서 컬러바까지 나오게 되면 x축 눈금이 보이지 않을 때가 있다.
이럴땐 sharex=False 옵션을 주면 x축 눈금이 정상적으로 보이게된다.
c='price'를 입력해서 가격별로 색깔을 달리하려 했는데
뭔가 원하는 결과가 나오지 않았다.
그 이유를 기술통계에서 찾아보자
보는 바와 같이 3사분위까지의 가격은 175달러지만
최댓값이 $10,000이기 때문에 격차가 너무 커서 색깔의 격차도 커지게 된 것이다.
백분위 95%까지의 값
quantile
describe(percentiles)
백분위 95%까지의 가격 값도 $355이다.
$355 미만인 행만 남겨서 다시 지도를 그려보자
visual_df
다시 그리기
위 그래프는 너무 흑백이니 조금 더 꾸며보자
colorbar, cmap, alpha 설정
컬러맵을 설정하고, 컬러바를 True로 표시해줬다.
투명도는 0.4로 설정해 겹치는 지역도 볼 수 있게 했다.
이미지 위에 겹치기
기존 이미지
위 이미지는 데이터 출처에서 제공하는 이미지이며, 뉴욕을 약식화해서 보여주고 있다.
이 지도 위에 지금까지 그렸던 산점도를 겹쳐서 그릴 수 있다.
'개발자 > Data Analysis' 카테고리의 다른 글
Python - Pandas 튜토리얼 (데이터프레임 생성, 접근, 삭제, 수정) (0) | 2021.12.02 |
---|---|
Colab 연결 유지하기[퍼옴] (0) | 2021.07.22 |
판다스 - 뉴욕 Airbnb 데이터 : SQL로 데이터 다뤄보기 (0) | 2021.02.15 |
판다스 - 뉴욕 Airbnb 데이터 : 전처리, 정규표현식으로 필터링 (0) | 2021.02.15 |
(폐암수술환자의 생존율 예측하기)모두의 딥러닝 소스 분석 (0) | 2020.08.24 |