안녕하세요!
오늘은 BeautifulSoup을 활용한
뉴스 이슈 리스트 가져오기, 링크 가져오기 코드를 배포합니다.
1. 뉴스 이슈 가져오기 크롤링 코드
# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup
# 패턴2. 크롤링하고 싶은 페이지 URL넣음
res = requests.get('https://news.daum.net/')
# 패턴3. 데이터 구조화
#내가 한 방법은 맞음, 패턴을 찾아야함. 근데 select_one이 아니라 select
#nchild를 없애니까 len을 하니 20개가 추출됨
soup = BeautifulSoup(res.content,'html.parser')
#css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li:nth-child(1) > div > div > strong > a'
css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong'
mydata= soup.select(css)
#len(mydata)
for idx, tag in enumerate(mydata):
print(idx, tag.text.strip())
2. 뉴스 링크 가져오기 크롤링 코드
# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup
# 패턴2. 크롤링하고 싶은 페이지 URL넣음
res = requests.get('https://news.daum.net/')
# 패턴3. 데이터 구조화
soup = BeautifulSoup(res.content,'html.parser')
css = 'body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong> a'
mydata= soup.select(css)
#len(mydata)
for idx, tag in enumerate(mydata):
print(idx, tag['href'])
감사합니다!
'데이터 > 데이터' 카테고리의 다른 글
[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드 (0) | 2023.07.23 |
---|---|
[BeautifulSoup] 다음 뉴스, 네이버 뉴스 기사 제목 크롤링 코드 (0) | 2023.07.23 |
[BeautifulSoup] 크롤링 패턴 코드 연습하기 (0) | 2023.07.23 |
[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출 (0) | 2023.07.23 |
데이터 분석 환경 설정하기/ Chat GPT 설치하고 사용하기(한글 번역) (0) | 2023.07.17 |