크롤링 스크레이핑 study 중 필요한 지식 정리

urllib 라이브러리 이용하기

1. urllib.request 모듈 이용해서 파일 다운로드 가능

2. urlopen()으로 파일에 저장 가능

->데이터 추출하기

url = "http://api.aoikujira.com/ip/ini"

res = urllib.request.urlopen(url) 가장 많이 씀

BeautifulSoup로 스크레이핑

urlopen()과 BeautifulSoup 조합해서 기상청 RSS에서 특정 내용 추출하기

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#urlopen으로 데이터 가져오기
res = req.urlopen(url)

#Beautifulsoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
#원하는 데이터 추출하기
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
print(wf)

RSS: Rich Site Summary 또는 Really Simple Syndication. 舊 RDF Site Summary.

RSS는, 어떤 사이트에 새로운 콘텐츠가 올라왔을 때 해당 사이트에 방문하지 않고, RSS서비스를 통해 리더 한 곳에서 그 콘텐츠를 이용하기 위한 방법이다. 쉽게 생각하면, 여러 언론사 사이트를 모두 방문할 필요 없이 다양한 기사를 네이버뉴스 한 곳에서 볼 수 있는 것과 같다고 보면 된다.

--- 추후 계속 업데이트 예정

저작자표시 (새창열림)

'개발자 > WEB' 카테고리의 다른 글

JavaScript 엘리 드림 코딩 3강 정리 (0)	2021.12.28
MySQL 8.0 과 JDBC 연결하기 (0)	2021.01.07
파이썬 요청에서 보안 인증서 확인 비활성화 방법 (0)	2021.01.07

영화처럼 Tistory

크롤링 스크레이핑 study 중 필요한 지식 정리

urllib 라이브러리 이용하기

BeautifulSoup로 스크레이핑

--- 추후 계속 업데이트 예정

'개발자 > WEB' 카테고리의 다른 글

티스토리툴바

크롤링 스크레이핑 study 중 필요한 지식 정리

urllib 라이브러리 이용하기

BeautifulSoup로 스크레이핑

--- 추후 계속 업데이트 예정

'개발자 > WEB' 카테고리의 다른 글

'개발자/WEB' Related Articles

티스토리툴바