본문 바로가기

개발자/WEB

크롤링 스크레이핑 study 중 필요한 지식 정리

반응형

urllib 라이브러리 이용하기


1. urllib.request 모듈 이용해서 파일 다운로드 가능

2. urlopen()으로 파일에 저장 가능

->데이터 추출하기

url = "http://api.aoikujira.com/ip/ini"

res = urllib.request.urlopen(url) 가장 많이 씀

 

 

BeautifulSoup로 스크레이핑

 


urlopen()과 BeautifulSoup 조합해서 기상청 RSS에서 특정 내용 추출하기

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#urlopen으로 데이터 가져오기
res = req.urlopen(url)

#Beautifulsoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
#원하는 데이터 추출하기
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
print(wf)


RSS: Rich Site Summary 또는 Really Simple Syndication. 舊 RDF Site Summary.

RSS는, 어떤 사이트에 새로운 콘텐츠가 올라왔을 때 해당 사이트에 방문하지 않고, RSS서비스를 통해 리더 한 곳에서 그 콘텐츠를 이용하기 위한 방법이다. 쉽게 생각하면, 여러 언론사 사이트를 모두 방문할 필요 없이 다양한 기사를 네이버뉴스 한 곳에서 볼 수 있는 것과 같다고 보면 된다.

--- 추후 계속 업데이트 예정

반응형