데이터/데이터

[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드

rinaisme 2023. 7. 23. 17:56

안녕하세요!

오늘은 BeautifulSoup을 활용한

뉴스 이슈 리스트 가져오기, 링크 가져오기 코드를 배포합니다.

 

 


 

1. 뉴스 이슈 가져오기 크롤링 코드

 

 

# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup

# 패턴2. 크롤링하고 싶은 페이지 URL넣음
res = requests.get('https://news.daum.net/')

# 패턴3. 데이터 구조화
#내가 한 방법은 맞음, 패턴을 찾아야함. 근데 select_one이 아니라 select
#nchild를 없애니까 len을 하니 20개가 추출됨
soup = BeautifulSoup(res.content,'html.parser')
#css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a'
css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong'
mydata= soup.select(css)
#len(mydata)

for idx, tag in enumerate(mydata):
    print(idx, tag.text.strip())

 

 


 

2. 뉴스 링크 가져오기 크롤링 코드

 

# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup

# 패턴2. 크롤링하고 싶은 페이지 URL넣음
res = requests.get('https://news.daum.net/')

# 패턴3. 데이터 구조화
soup = BeautifulSoup(res.content,'html.parser')

css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong> a'
mydata= soup.select(css)
#len(mydata)

for idx, tag in enumerate(mydata):
    print(idx, tag['href'])

 

 

감사합니다!