1分钟快速生成用于网页内容提取的xslt

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1分钟快速生成用于网页内容提取的xslt相关的知识,希望对你有一定的参考价值。

python使用xslt提取网页数据一文中,使用xslt来提取目标网页上的内容。示例的小程序,直接把一长段xslt赋值给变量。原文没有讲这一段xslt是怎么来的。


有的网友有疑问,这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker谋数台的直观标注来自动生成,1分钟就搞定了。


下面以示例程序中的论坛帖子列表为例,给大家带来具体的操作方法:

第一步,打开GooSeeker谋数台,输入要抓取的网址;

第二步,在谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认;

技术分享


第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来。

技术分享


通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt。


本文出自 “fullerhua的博客” 博客,谢绝转载!

以上是关于1分钟快速生成用于网页内容提取的xslt的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫实战:爬取Drupal论坛帖子列表

怎么把这个表格的内容提取到网页上面?

如果网页内容是由javascript生成的,应该怎么实现爬虫

Python使用xslt提取网页数据

用于 javascript 生成内容的 Python 网页抓取

五分钟快速了解Scrapy爬虫框架