웹 크롤링

request 모듈

우선 request 모듈을 이용해서 웹페이지를 가져온다.

const request = require('request');

url = 'http://www.example.com/path';

request.get(url, function(err, resp, body) {
  //body가 웹페이지이다. body를 파싱하면 된다.
});

cheerio 모듈

cheerio 모듈을 이용해서 웹페이지를 파싱할 수 있다.

설치

$ npm install cheerio --save

로딩

const cheerio = require('cheerio');

const $ = cheerio.load(body);

body는 파싱할 웹페이지가 된다.

선택자

selector(선택자)를 이용해서 원하는 성분들을 찾는다.

$(selector[, context[, root]]])

selector는 css 문법을 사용할 수 있고 context는 selector를 제한하는 더 넓은 범위를 나타낸다. rootcontext보다 더 넓은 범위로 제한하고 싶을 때 사용한다. 문자열, DOM 성분, DOM 배열 또는 cheerio 객체를 사용할 수 있다.