웹 크롤링¶
request 모듈¶
우선 request
모듈을 이용해서 웹페이지를 가져온다.
const request = require('request');
url = 'http://www.example.com/path';
request.get(url, function(err, resp, body) {
//body가 웹페이지이다. body를 파싱하면 된다.
});
cheerio 모듈¶
cheerio 모듈을 이용해서 웹페이지를 파싱할 수 있다.
설치¶
$ npm install cheerio --save
선택자¶
selector(선택자)를 이용해서 원하는 성분들을 찾는다.
$(selector[, context[, root]]])
selector는 css 문법을 사용할 수 있고 context
는 selector를 제한하는 더 넓은 범위를 나타낸다. root
는 context
보다 더 넓은 범위로 제한하고 싶을 때 사용한다. 문자열, DOM 성분, DOM 배열 또는 cheerio 객체를 사용할 수 있다.