怎样用爬取网页中的pdf的内容

Posted 2023-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎样用爬取网页中的pdf的内容相关的知识，希望对你有一定的参考价值。

可以借助一些采集工具实现批量采集网页中的文档链接，再利用工具下载文档后转格式复制粘贴参考技术A 文字的话，先截屏保存，再用ocr软件识别。

python怎样抓取网页中的文字和数字数据

以下代码在 py2 下运行通过：

import urllib2

req = urllib2.Request('https://www.baidu.com/')  # 创建一个 Requset 对象
response = urllib2.urlopen(req)  # 调用 urlopen
the_page = response.read()  # 返回一个 response 对象在 response 中调用 read()
print the_page

运行效果：

参考技术A 通过xpath路径来定位到要提取的元素，在路径后面加上/text()可以提取该元素的文本，如果是要提取属性值，在路径后面加上/@属性名就可以。如果要只采集数字或者文字，可以使用正则来实现。比如数字的正字表达式：[0-9]+。希望可以帮到题主

以上是关于怎样用爬取网页中的pdf的内容的主要内容，如果未能解决你的问题，请参考以下文章

python3 怎样爬取动态加载的网页信息

爬虫中怎样用扒出来的链接扒网页中的内容？

python怎样抓取网页中的文字和数字数据

java jsoup怎样爬取特定网页内的数据

VC CWebBrowser2 获取网页文本内容，该怎么解决

怎么爬取网页的动态内容，很多都是js动态生