파이썬 크롤링을 배워서 뮤직차트 순위를 크롤링해보자 한다.
먼저 크롤링에 필요한 Beautifulsoup을 다운해야 한다.
pip install beautifulsoup4
명령어로 쉽게 다운받을수있다.
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://www.naver.com/")
bs = BeautifulSoup(html, "html.parser")
print(bs)
먼저 위의 코드를 써서
네이버메인을 크롤링해보면
<!DOCTYPE doctype html>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="origin" name="Referrer"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=1100" name="viewport"/>
<meta content="NAVER" name="apple-mobile-web-app-title">
<meta content="index,nofollow" name="robots">
<meta content="���̹� ���ο��� �پ��� ������ ������ �������� ���� ������" name="description">
<meta content="���̹�" property="og:title"/>
<meta content="https://www.naver.com/" property="og:url"/>
<meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
<meta content="���̹� ���ο��� �پ��� ������ ������ �������� ���� ������" property="og:description">
<meta content="summary" name="twitter:card"/>
이렇게 html코드들을 볼수있다 사실은 훨씬 긴데 내가 알아서 잘랏다
이제 여기서 내가 원하는 정보들만 골라서 크롤링을하면
나만의 웹크롤러를 만들수있다.