안녕하세요!
오늘은 다음 뉴스기사와 네이버뉴스 기사 크롤링 코드를 배포합니다.
1. 다음 뉴스 기사 제목 크롤링
# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'}
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=025&aid=0003065817'
res = requests.get(url,headers = head)
# 패턴2. 크롤링하고 싶은 페이지 URL넣음
# 패턴3. 데이터 구조화
soup = BeautifulSoup(res.content,'html.parser')
# 패턴4. 크롤링하고 싶은 내용 HTML 태그 지정
print(soup.select_one('#mArticle > div.head_view > h3').text, soup.select_one('#mArticle > div.head_view > div.info_view > span:nth-child(2) > span').text)
2. 네이버 뉴스 기사 제목 크롤링
# 패턴1. 라이브러리 로드
import requests
from bs4 import BeautifulSoup
# 패턴2. 크롤링하고 싶은 페이지 URL넣음
#다음은 괜찮지만 네이버는 header를 넣어줘야함
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'}
url = 'https://n.news.naver.com/article/449/0000253878?cds=news_media_pc&type=editn'
res = requests.get(url,headers = head)
# 패턴3. 데이터 구조화
soup = BeautifulSoup(res.content,'html.parser')
# 패턴4. 크롤링하고 싶은 내용 HTML 태그 지정
print(soup.select_one('#title_area > span').text)
'데이터 > 데이터' 카테고리의 다른 글
[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드 (0) | 2023.07.23 |
---|---|
[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드 (0) | 2023.07.23 |
[BeautifulSoup] 크롤링 패턴 코드 연습하기 (0) | 2023.07.23 |
[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출 (0) | 2023.07.23 |
데이터 분석 환경 설정하기/ Chat GPT 설치하고 사용하기(한글 번역) (0) | 2023.07.17 |