Python打开网页并另存为静态html怎么实现

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python打开网页并另存为静态html怎么实现相关的知识,希望对你有一定的参考价值。

当前网页中包含有javascript动态生成网页的内容,想要将当前网页的所有内容及格式保存为静态的html,如何实现?
Python目前能实现保存网页,但是是保存原网页的源码,未能实现将所有内容及格式保存为静态html。

用Python的requests库解决这个问题比较简单,例程如下:


import sys
import requests

reload(sys)
sys.setdefaultencoding('utf-8')

r=requests.get('xxx网址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()


说明一下,requests库不是Python内置的,不过很流行,很多发行版都带,没带的话就去requests官网去下载,或者用 pip install requests命令安装最新版。


这个程序里在保存文件前,还需要把字符编码设置一下,用的是自带的sys库。

参考技术A 网页上的JS是在浏览器中解释执行和渲染的,python无法解释JS代码,因此无法直接获取结果,目前倒是有一些第三方的库允许在python中执行js代码,但用于网页解析比较麻烦

你可以考虑使用pywin32这个库,调用pywin32在内存中控制IE打开你需要访问的页面,然后获取结果

以上是关于Python打开网页并另存为静态html怎么实现的主要内容,如果未能解决你的问题,请参考以下文章

提示用户打开工作簿并另存为新工作簿

打开 Excel 文件并另存为 .XLS

Matlab:打开以前保存的数字并另存为

PyPDF2如何实现按照PDF页码提取后并另存为PDF格式文件?

提示文件打开,进行更改并另存为另一个副本,然后关闭+取消保存原始文件

excel表格怎么另存为html网页