카테고리 없음

[python] Crawling 해보기

프로틴형님 2022. 8. 7. 03:34

Crawling 해보기


  • Web Crawler : 사전적으로 '기는 것', '파충류'라는 의미이다. 웹 페이지의 데이터를 모아주는 소프트웨어
  • Web Crawling : 크롤러를 사용해 웹 페이지의 데이터를 추출해 내는 행위
  • Parsing : 데이터를 의미있게 변경하는 작업
  • parser : Parsing을 도와주는 프로그램

라이브러리 준비

  • pip install requests
  • pip install bs4

>> 스크립트로 requests 라이브러리 설치 위치 확인

import requests

print(requests)

 


요청하고 응답받기

  • google 사이트 html code 읽기
import requests

url = "http://www.google.com"
response = requests.get(url)

print(response.text)

[text, url, content, endcoding, headers, json, links, ok, status_code] key가 있음 


Beautiful Soup

  • str 타입을 BeautifulSoup 형태로 변형
    => BeautifulSoup( 데이터 , 파싱방법 )
import requests
from bs4 import BeautifulSoup

url = "http://www.google.com"
response = requests.get(url)

print(BeautifulSoup(response.text, 'html.parser'))

 

  • html tag 가져오기
import requests
from bs4 import BeautifulSoup

url = "http://www.google.com"
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

print(soup.title)
print(soup.title.string)
print(soup.findAll('span'))