爬虫的定向爬取与垂直搜索

Posted dy9776

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫的定向爬取与垂直搜索相关的知识,希望对你有一定的参考价值。

转 爬虫的定向爬取与垂直搜索

定向爬虫是网络爬虫的一种。

  定向爬虫

  定向爬虫可以精准的获取目标站点信息。

  定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。

 优势:

  基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。

  劣势:

  目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。

 

  也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此了。问答网站,一般都有提问块和回答块,如果我们能够建立模板专门的爬取这两个块,无疑将会在效率和准确度上更上一层楼。

垂直搜索

垂直搜索是针对某一方面的定向搜索,比如汽车、房子、衣物等等方面的单方面搜索,相对于一般搜索引擎的广度搜索,更专业性。而我们要做的项目是关于计算机方面知识的问答网站,只需要搜索爬取相应方面的知识就够了。应该说我们是一个基于深度的搜索。老师也给了我们一些高校的教学资源网站,我们只要能够将这些网站上的所有链接深度爬取,应该也能够获取大量专业性的资源。

 

参考资料:http://www.zhihu.com/question/19651413

http://geek87.iteye.com/blog/382450

以上是关于爬虫的定向爬取与垂直搜索的主要内容,如果未能解决你的问题,请参考以下文章

Python | 新冠肺炎疫情数据的爬取与可视化分析

Python爬虫-Scrapy-CrawlSpider与ItemLoader

爬虫的进阶须知

豆瓣书籍数据爬取与分析

垂直搜索引擎

Lucene搜索引擎+HDFS+MR完成垂直搜索