Coding/Crawling

Coding/Crawling

파이썬 나만의 지니뮤직 차트순위 크롤링하기 #4 추가

이전에 만들었던 지니뮤직 크롤러는 1위부터 50위까지 노래 제목만 출력이됐었다 지금 오라클을 이용해서 크롤링한 정보를 데이터베이스에 저장하게하고 싶어서 여러개의 정보가 같이 크롤링 되었으면 좋겠다고 생각했다 그래서 바로 추가해보았다 import requests from bs4 import BeautifulSoup headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} url = 'https://www.genie.co.kr/chart/top200' resp = requests.get(url, headers =..

Coding/Crawling

자바스크립트 cheerio와 axios를 이용한 크롤링

const axios = require('axios'); const cheerio = require('cheerio'); const url = "https://mrxx.tistory.com/category"; async function getHTML(){ try{ return await axios.get(url); }catch (error){ console.log(error); } } getHTML() .then(html => { var titlelist = []; const $ = cheerio.load(html.data); const $bodyList = $("div#content").children("article.entry"); $bodyList.each(function(i, elem){ titl..

Coding/Crawling

파이썬 나만의 지니뮤직 차트순위 크롤링하기 #3 마지막

지니뮤직 크롤러 만들기 세 번째 저번에 차트 순위 1위만 출력되는 것과 앞에 공백이 너무 많다는 점이 문제였다 한번 해결해보자 import requests from bs4 import BeautifulSoup headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} url = 'https://www.genie.co.kr/chart/top200' resp = requests.get(url, headers = headers) soup = BeautifulSoup(resp.text, 'html.parser') so..

Coding/Crawling

파이썬 나만의 지니뮤직 차트순위 크롤링하기 #2

지니뮤직 크롤러 만들기 먼저 구글에서 삽질하면서 코드를 짜보았다 import requests from bs4 import BeautifulSoup headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} url = 'https://www.genie.co.kr/chart/top200' resp = requests.get(url, headers = headers) soup = BeautifulSoup(resp.text, 'html.parser') song = soup.find("a",{"class":"title ..

Coding/Crawling

파이썬 나만의 지니뮤직 차트순위 크롤링하기 #1

파이썬 크롤링을 배워서 뮤직차트 순위를 크롤링해보자 한다. 먼저 크롤링에 필요한 Beautifulsoup을 다운해야 한다. pip install beautifulsoup4 명령어로 쉽게 다운받을수있다. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.naver.com/") bs = BeautifulSoup(html, "html.parser") print(bs) 먼저 위의 코드를 써서 네이버메인을 크롤링해보면 이렇게 html코드들을 볼수있다 사실은 훨씬 긴데 내가 알아서 잘랏다 이제 여기서 내가 원하는 정보들만 골라서 크롤링을하면 나만의 웹크롤러를 만들수있다.

h0ch1
'Coding/Crawling' 카테고리의 글 목록