Crawling 해보기
- Web Crawler : 사전적으로 '기는 것', '파충류'라는 의미이다. 웹 페이지의 데이터를 모아주는 소프트웨어
- Web Crawling : 크롤러를 사용해 웹 페이지의 데이터를 추출해 내는 행위
- Parsing : 데이터를 의미있게 변경하는 작업
- parser : Parsing을 도와주는 프로그램
라이브러리 준비
- pip install requests
- pip install bs4
>> 스크립트로 requests 라이브러리 설치 위치 확인
import requests
print(requests)
요청하고 응답받기
- google 사이트 html code 읽기
import requests
url = "http://www.google.com"
response = requests.get(url)
print(response.text)
[text, url, content, endcoding, headers, json, links, ok, status_code] key가 있음
Beautiful Soup
- str 타입을 BeautifulSoup 형태로 변형
=> BeautifulSoup( 데이터 , 파싱방법 )
import requests
from bs4 import BeautifulSoup
url = "http://www.google.com"
response = requests.get(url)
print(BeautifulSoup(response.text, 'html.parser'))
- html tag 가져오기
import requests
from bs4 import BeautifulSoup
url = "http://www.google.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title)
print(soup.title.string)
print(soup.findAll('span'))