bs4 5

[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드

안녕하세요! 오늘은 네이버 증권 인기검색 종목, 해외 증시 크롤링 코드를 배포하려고 합니다. 1. 네이버 증권 인기종목 크롤링 # 패턴1. 라이브러리 로드 import requests from bs4 import BeautifulSoup # 패턴2. 크롤링하고 싶은 페이지 URL넣음 res = requests.get('https://finance.naver.com/') # 패턴3. 데이터 구조화 soup = BeautifulSoup(res.content,'html.parser') #container > div.aside > div > div.aside_area.aside_popular > table > tbody > tr:nth-child(1) > th > a css = '#container > div...

데이터/데이터 2023.07.23

[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드

안녕하세요! 오늘은 BeautifulSoup을 활용한 뉴스 이슈 리스트 가져오기, 링크 가져오기 코드를 배포합니다. 1. 뉴스 이슈 가져오기 크롤링 코드 # 패턴1. 라이브러리 로드 import requests from bs4 import BeautifulSoup # 패턴2. 크롤링하고 싶은 페이지 URL넣음 res = requests.get('https://news.daum.net/') # 패턴3. 데이터 구조화 #내가 한 방법은 맞음, 패턴을 찾아야함. 근데 select_one이 아니라 select #nchild를 없애니까 len을 하니 20개가 추출됨 soup = BeautifulSoup(res.content,'html.parser') #css = 'body > div.container-doc > ..

데이터/데이터 2023.07.23

[BeautifulSoup] 다음 뉴스, 네이버 뉴스 기사 제목 크롤링 코드

안녕하세요! 오늘은 다음 뉴스기사와 네이버뉴스 기사 크롤링 코드를 배포합니다. 1. 다음 뉴스 기사 제목 크롤링 # 패턴1. 라이브러리 로드 import requests from bs4 import BeautifulSoup head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'} url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=025&aid=0003065817' res = requests.get(url,headers = head) # 패턴..

데이터/데이터 2023.07.23

[BeautifulSoup] 크롤링 패턴 코드 연습하기

안녕하세요! 오늘은 beautifulsoup을 활용한 크롤링 패턴 코드를 연습하려고 합니다. 1. 라이브러리 임포트 request: 웹페이지 가져오기 bs4(BeautifulSoup):웹페이지 분석 라이브러리 import requests from bs4 import BeautifulSoup 2. 웹페이지 가져오기 URL 요청을 하고, HTML을 받는다 requests.get() 함수로 요청한다. res.status_code가 200이면 성공이다. #'https://news.v.daum.net/v/20201230200156918' res = requests.get('https://news.v.daum.net/v/20201230200156918') #200이면 성공 res.status_code 3. 웹페이지..

데이터/데이터 2023.07.23

[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출

안녕하세요! 오늘은 크롤링 기초에 대해 정리하겠습니다. 1. BeautifulSoup 환경 구성하기 !pip install beautifulSoup4 먼저 beautifulSoup4를 설치합니다. 이후 bs4라는 패키지로부터 BeautifulSoup라는 모듈을 임포트 합니다. # bs4라는 패키지로부터 BeautifulSoup라는 모듈을 임포트 from bs4 import BeautifulSoup html = """ [1]크롤링이란? 웹페이지에서 필요한 데이터를 추출하는 것 파이썬을 중심으로 다양한 웹크롤링 기술 발달 바로가기 [국내도서]신나는 파이썬 [국내도서] 혼자 공부하는 파이썬 [국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 """ html을 가정했을 때 ..

데이터/데이터 2023.07.23