안녕하세요! 오늘은 beautifulsoup을 활용한
크롤링 패턴 코드를 연습하려고 합니다.

1. 라이브러리 임포트
request: 웹페이지 가져오기
bs4(BeautifulSoup):웹페이지 분석 라이브러리
import requests
from bs4 import BeautifulSoup
2. 웹페이지 가져오기
URL 요청을 하고, HTML을 받는다
requests.get() 함수로 요청한다.
res.status_code가 200이면 성공이다.
#'https://news.v.daum.net/v/20201230200156918'
res = requests.get('https://news.v.daum.net/v/20201230200156918')
#200이면 성공
res.status_code
3. 웹페이지 파싱하기
파싱이란 문자열의 의미를 분석하는 것이다
soup = BeautifulSoup(HTML내용, 파서종류)
soup에는 구조화된 데이터가 들어간다
soup = BeautifulSoup(res.content, 'html.parser')
soup
4. 필요한 데이터 추출하기
soup.select('태그명.css>태그명')로 추출하고자 하는 태그와
css이름을 조합해서 추출한다.
get_text()함수로 태그가 품고 있는 텍스트를 가져온다.
soup.select_one('#mArticle > div.head_view > h3').text
'데이터 > 데이터' 카테고리의 다른 글
[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드 (0) | 2023.07.23 |
---|---|
[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드 (0) | 2023.07.23 |
[BeautifulSoup] 다음 뉴스, 네이버 뉴스 기사 제목 크롤링 코드 (0) | 2023.07.23 |
[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출 (0) | 2023.07.23 |
데이터 분석 환경 설정하기/ Chat GPT 설치하고 사용하기(한글 번역) (0) | 2023.07.17 |