怎么解决使用python的requests获得网页时出现sslEOFError错误

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么解决使用python的requests获得网页时出现sslEOFError错误相关的知识,希望对你有一定的参考价值。

参考技术A 我查过资料后使用requests.get(url,verify=False)来取消ssl的验证,但是还会出现同样的错误.这个网页在谷歌浏览器(最新版本)和火狐浏览器(最新版本)会出现
"SSL 服务器可能需要更新。
ERR_SSL_FALLBACK_BEYOND_MINIMUM_VERSION"
这样的错误.但是使用ie浏览器(最新版本)能正常打开
这样的错误的原因我查了是因为这个
SSL 3.0协议又出安全问题,Google打算彻底抛弃它open-open.com/news/view
是不是这个网站的安全协议出问题,才导致我不能使用requests获得网页?这样的问题要如何解决呢

如何用Python爬虫抓取网页内容?

比如新浪,QQ等

爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器,打开目标网站。
获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库,使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('http://www.douban.com')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>
参考技术A

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

import requests
from bs4 import BeautifulSoup

iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res = requests.get(iurl)

res.encoding = 'utf-8'

#print(len(res.text))

soup = BeautifulSoup(res.text,'html.parser')

#标题
H1 = soup.select('#artibodyTitle')[0].text

#来源
time_source = soup.select('.time-source')[0].text


#来源
origin = soup.select('#artibody p')[0].text.strip()

#原标题
oriTitle = soup.select('#artibody p')[1].text.strip()

#内容
raw_content = soup.select('#artibody p')[2:19]
content = []
for paragraph in raw_content:
    content.append(paragraph.text.strip())
'@'.join(content)    
#责任编辑
ae = soup.select('.article-editor')[0].text

这样就可以了

本回答被提问者采纳

以上是关于怎么解决使用python的requests获得网页时出现sslEOFError错误的主要内容,如果未能解决你的问题,请参考以下文章

我从 Python 中的 requests 模块获得的 html 代码与我从浏览器获得的同一网页的源代码不同

python里面request怎么读取html代码?

python 爬网页 遇到重定向怎么处理

python爬虫使用requests请求无法获取网页元素时终极解决方案

Python打开网页并另存为静态html怎么实现

爬虫好学么?