如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter相关的知识,希望对你有一定的参考价值。

 

 

 技术分享

云采集使用教程(发布到WeCenter

 

 

1. 注册账号

打开神箭手官网http://www.shenjianshou.cn/),注册一个账号:

技术分享

 

2.获取采集规则

点击官网首页右上角的“云市场”,在市场里免费获取采集规则:

技术分享

 

3.采集数据

1)         进入“管理控制台”;

2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”);

3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页;

4)         点击右上角的“启动”,采集任务便立即开始。稍等一会,采集到的数据会显示出来。

技术分享

 

4.发布数据到WeCenter

1)         首先在您的网站上安装神箭手WeCenter发布插件(最新插件分享链接:http://pan.baidu.com/s/1eRr4oca)。安装方法是将app、system、views这三个文件夹都上传到网站的根目录,更新插件时也需要将这三个文件夹都上传到根目录。

技术分享

2)         发布设置。进入神箭手后台,在采集结果右上角,点击“发布设置”->“新建发布项”->“WeCenter发布接口”->“下一步”->填写发布信息:

    a)    网站地址填写WeCenter的网站地址

    b)    发布密码需与神箭手发布插件中的一致

    c)    替换后的超链接:若采集的数据中有其他网站的超链接,可替换成指定网站的链接。若不填写,则默认为不替换

技术分享

 

    注意 1:发布设置完成后,注意查看发布是否处于“启用”状态,启用后才可以发布。

技术分享

    注意2:神箭手支持发布到文章和问答两种类型。请特别留意“发布类型”,比如好搜的采集规则属于问答、华尔街见闻的采集规则是文章。如果发布类型选择错误,发布会失败。

 

    3)      手动或者自动发布。返回任务详情页,可以勾选需要的数据手动发布或者选择自动发布发布所有数据,数据将发布到您的网站上。

技术分享

 

温馨提示:

如在采集过程中有任何问题,请加QQ群174631869,我们会及时解答您的疑问。

神箭手官网:http://www.shenjianshou.cn/

以上是关于如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter的主要内容,如果未能解决你的问题,请参考以下文章

如何使用爬虫一键批量采集新浪微博内容

大众点评网商家数据采集爬虫实现源码

如果网页内容是由javascript生成的,应该怎么实现爬虫

如何采集网页数据并发布到Discuz

沪商财富爬虫源码

尚妆网爬虫源码