Python爬虫之无法获取网页源码的解决方案详解

Posted 荣仔!最靓的仔!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫之无法获取网页源码的解决方案详解相关的知识,希望对你有一定的参考价值。

目录

1 引子

2 解决方案


1 引子

对某网页数据爬取时, 键中  显示网页源码与鼠标右键  查看网页源代码显示的网页源码不同。

图1: F12 键中 Elements 显示的网页源码
图2:鼠标右键 -> 查看网页源代码显示的网页源码

因此,在使用如下代码获取网页源码时实际上获取的是图  所示的网页源码:

content = requests.get(url).content.decode('utf-8')
print(content)

然而我们想要获得是图  所示的网页源码,那么这个想法怎么实现呢?

2 解决方案

既然无法通过  库来直接获取到我们想要的网页源码,那么我们就采用  和  方法直接获取我们想要的网页源码。

基于此,直接右击鼠标找到 ,复制可供复制的整篇源码。 

粘贴到本地,并将文件以  后缀命名。

之后就好办了,比如我这里运用  库即可获取到我们想获得的网页源码。

soup = BeautifulSoup(open('new.html', encoding='utf-8'), "html.parser")
print(soup)


END

以上是关于Python爬虫之无法获取网页源码的解决方案详解的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫怎么获取动态的网页源码

python3爬虫初探之正则表达式

python爬虫使用requests请求无法获取网页元素时终极解决方案

Python爬虫之破解百度翻译--requests案例详解

Python爬虫学习之获取网页源码

1python爬虫 request.urlopen请求网页获取源码