爬虫3:pdf页面+pdfminer模块+demo

Posted rongyux

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫3:pdf页面+pdfminer模块+demo相关的知识,希望对你有一定的参考价值。

  本文介绍下pdf页面的爬取,需要借助pdfminer模块

  demo一般流程:

  1)设置url

url = http://www.------ + .PDF

  2)requests模块获取url

import requests
r = requests.get(inner_url)

  3)写入.pdf文件

myFile = open("PDF/" +  i[uassociateAnnouncement] + .pdf, "wb")
myFile.write( r.content )
myFile.close()

  4)引入pdfminer模块

import pdfminer

  5)BeautifulSoup解析html

from bs4 import BeautifulSoup

html = open(PDF/1202268749.html).read()

未完待续,先睡觉,pdfminer把pdf页面解析成html页面,然后beautifulsoap解析html页面即可。

 

以上是关于爬虫3:pdf页面+pdfminer模块+demo的主要内容,如果未能解决你的问题,请参考以下文章

PDF解析模块-PDFMiner开发手册[翻译]

爬虫3:html页面+webdriver模块+demo

PDFMiner 未检测到所有页面

Python3.x:PDFMiner3k在线本地解析pdf

用pdfminer.six打开一个PDF,从一个URL中打开。

爬虫2:html页面+beautifulsoap模块+post方式+demo