怎样用爬取网页中的pdf的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎样用爬取网页中的pdf的内容相关的知识,希望对你有一定的参考价值。

可以借助一些采集工具实现批量采集网页中的文档链接,再利用工具下载文档后转格式复制粘贴 参考技术A 文字的话,先截屏保存,再用ocr软件识别。

python怎样抓取网页中的文字和数字数据

以下代码在 py2 下运行通过:

import urllib2

req = urllib2.Request('https://www.baidu.com/')  # 创建一个 Requset 对象
response = urllib2.urlopen(req)  # 调用 urlopen
the_page = response.read()  # 返回一个 response 对象 在 response 中调用 read()
print the_page


运行效果:

参考技术A 通过xpath路径来定位到要提取的元素,在路径后面加上/text()可以提取该元素的文本,如果是要提取属性值,在路径后面加上/@属性名就可以。如果要只采集数字或者文字,可以使用正则来实现。比如数字的正字表达式:[0-9]+。希望可以帮到题主

以上是关于怎样用爬取网页中的pdf的内容的主要内容,如果未能解决你的问题,请参考以下文章

python3 怎样爬取动态加载的网页信息

爬虫中怎样用扒出来的链接扒网页中的内容?

python怎样抓取网页中的文字和数字数据

java jsoup怎样爬取特定网页内的数据

VC CWebBrowser2 获取网页文本内容,该怎么解决

怎么爬取网页的动态内容,很多都是js动态生