데이터/데이터

[BeautifulSoup] 크롤링 패턴 코드 연습하기

rinaisme 2023. 7. 23. 17:40

안녕하세요! 오늘은 beautifulsoup을 활용한

크롤링 패턴 코드를 연습하려고 합니다.

 

 


 

1. 라이브러리 임포트

 

 

request: 웹페이지 가져오기 

 

bs4(BeautifulSoup):웹페이지 분석 라이브러리

 

 

 

import requests
from bs4 import BeautifulSoup

 

 


 

2. 웹페이지 가져오기

 

 

URL 요청을 하고, HTML을 받는다

 

requests.get() 함수로 요청한다.

 

res.status_code가 200이면 성공이다.

 

 

 

#'https://news.v.daum.net/v/20201230200156918'

res = requests.get('https://news.v.daum.net/v/20201230200156918')
#200이면 성공
res.status_code

 

 


 

3. 웹페이지 파싱하기

 

 

파싱이란 문자열의 의미를 분석하는 것이다

 

soup = BeautifulSoup(HTML내용, 파서종류)

 

soup에는 구조화된 데이터가 들어간다

 

 

soup = BeautifulSoup(res.content, 'html.parser')
soup

코드 결과1

 


 

4. 필요한 데이터 추출하기

 

 

soup.select('태그명.css>태그명')로 추출하고자 하는 태그와

css이름을 조합해서 추출한다.

 

get_text()함수로 태그가 품고 있는 텍스트를 가져온다.

 

 

soup.select_one('#mArticle > div.head_view > h3').text

코드 결과2