[BeautifulSoup] 크롤링 패턴 코드 연습하기

데이터/데이터

rinaisme 2023. 7. 23. 17:40

안녕하세요! 오늘은 beautifulsoup을 활용한

크롤링 패턴 코드를 연습하려고 합니다.

request: 웹페이지 가져오기

bs4(BeautifulSoup):웹페이지 분석 라이브러리

import requests
from bs4 import BeautifulSoup

URL 요청을 하고, HTML을 받는다

requests.get() 함수로 요청한다.

res.status_code가 200이면 성공이다.

#'https://news.v.daum.net/v/20201230200156918'

res = requests.get('https://news.v.daum.net/v/20201230200156918')

#200이면 성공
res.status_code

파싱이란 문자열의 의미를 분석하는 것이다

soup = BeautifulSoup(HTML내용, 파서종류)

soup에는 구조화된 데이터가 들어간다

soup = BeautifulSoup(res.content, 'html.parser')
soup

soup.select('태그명.css>태그명')로 추출하고자 하는 태그와

css이름을 조합해서 추출한다.

get_text()함수로 태그가 품고 있는 텍스트를 가져온다.

soup.select_one('#mArticle > div.head_view > h3').text

[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드 (0)	2023.07.23
[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드 (0)	2023.07.23
[BeautifulSoup] 다음 뉴스, 네이버 뉴스 기사 제목 크롤링 코드 (0)	2023.07.23
[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출 (0)	2023.07.23
데이터 분석 환경 설정하기/ Chat GPT 설치하고 사용하기(한글 번역) (0)	2023.07.17

note1

안녕하세요. 일로 인해 잠시 쉽니다 :)

링크크롤링, 크롤링, 다음 뉴스크롤링, 데이터크롤링, bs4, 뉴스기사크롤링, 해외증시데이터, 뉴스기사리스트크롤링, BeautifulSoup, 파이썬크롤링, 파이썬활용, 크롤링파이썬, 해외증시크롤링, 뉴스기사제목크롤링, bs4크롤링, 네이버증권크롤링, 파이썬데이터, 네이버뉴스기사제목크롤링, 파이썬, 뉴스링크크롤링,

note1