crawler 使用jQuery风格实现

Posted 2022-02-27 xingqi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了crawler 使用jQuery风格实现相关的知识，希望对你有一定的参考价值。

以前写过java版的crawler，最近看了Groovy的XmlSlurper，效果还是不太满意，直到这篇文章启发了我：how-to-make-a-simple-web-crawler-in-javascript-and-node-js。于是就想到使用jQuery风格的js来解析html并获取数据，把这样的js碎片逻辑作为配置从而支持更灵活的自定义。

crawler的原始构思及说明：

crawlConfig，配置crawler：crawl=code.js，新配置的js脚本需要人工审核之后才能用于crawlData执行
获取所有a标签的href属性的配置，demo.a[href]，

urls=[]
$("a[href]").each(function()
href=$(this).attr(‘href‘)
if(href.indexOf(‘://‘)>0) urls.push(href)
)
crawl=‘urls‘:urls
获取所有img标签的src属性的配置，demo.img[src]，

urls=[]
$("img[src]").each(function()
src=$(this).attr(‘src‘)
if(src.indexOf(‘://‘)>0) urls.push(src)
)
crawl=‘urls‘:urls

html/get，获取html内容并缓存到redis
暂时没有使用phantom.js等技术，普通的http get就能满足大部分需求
crawlData，执行crawler对应的code.js，新配置的js脚本需要人工审核之后才能用于crawlData执行
获取页面超链接：demo.a[href]，
获取页面图片地址：demo.img[src]，

由于crawl是比较敏感的代码，因此本站只开放了crawlConfig、crawlData体验功能（自定义code.js需要审核）。同时还实现了车次信息获取的功能。

crawlData，恰好本站博客是基于node.js的ourjs，下面是code.js的执行逻辑：直接调用eval(code)，因此自定义代码需要审核！

html=obj.substring(7)，是由于老代码使用了默认的JdkSerializationRedisSerializer。
crawlData，其实相当于crawler的一个step被执行，而多个step的有序组合就构成了一个完整的crawler。
saveData，本站做了一个完整的crawler，因此data需要相应的设计：urls返回后续step的网址列表，data返回数据并按key的规则存入redis
crawl =
"urls": ["url", "url"],
"data": ["set_key": obj, "hset_map_key": obj]
如何使用数据：后续……

以上是关于crawler 使用jQuery风格实现的主要内容，如果未能解决你的问题，请参考以下文章