火车头采集器

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了火车头采集器相关的知识,希望对你有一定的参考价值。

火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法。

  1. 1

    下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说)

  2. 2

    下载好后,双击火车头图标打开采集器。

    技术分享
  3. 3

    进入火车头主程序页面。

    技术分享
  4. 4

    单击新建的黑小三角,新建任务。

    技术分享
  5. 5

    填写任务名,点击第二步。(采集网址不截了,以防广告)

    技术分享
  6. 6

    分析目标页面,找到要采集的内容。

    技术分享
  7. 7

    查看源文件,找到要采的内容(复制内容去搜索)

    技术分享
  8. 8

    建议用360浏览器或者360极速浏览器,找到目标内容,分析目标内容前后的代码。

    技术分享
  9. 9

    此时标题的前后代码为“<h2>”、“</h2>”。

    技术分享
  10. 10

    双击采集器“标题”。

    技术分享
  11. 11

    选择前后截取,把前后代码分别填进去,如图。

    技术分享
  12. 12

    或者,选择正则提取,如图,点击确认。

    技术分享
  13. 13

    标题采集规则制作完成,开始分析其他标签规则。

    内容中有不要的代码(如图div代码不要),可以排除。

    技术分享
  14. 14

    双击内容,进入数据处理,点击添加,出现菜单,选择html标签过滤。

    技术分享
  15. 15

    勾选不要的代码。

    技术分享
  16. 16

    检查要的内容是否全部采集进来了。

    技术分享

以上是关于火车头采集器的主要内容,如果未能解决你的问题,请参考以下文章

帝国cms火车头发布现实用户不存在,怎么解决

火车头采集器技术控使用手册(高级) 百度网盘下载

用火车头采集器8.6免费版采集图片

帝国cms用火车头采集的文章 不自动提取文章简介和图片

零代码工具推荐 八爪鱼采集器

火车头数据采集工具