怎么解决使用python的requests获得网页时出现sslEOFError错误

Posted 2023-04-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎么解决使用python的requests获得网页时出现sslEOFError错误相关的知识，希望对你有一定的参考价值。

参考技术A 我查过资料后使用requests.get(url,verify=False)来取消ssl的验证,但是还会出现同样的错误.这个网页在谷歌浏览器(最新版本)和火狐浏览器(最新版本)会出现
"SSL 服务器可能需要更新。
ERR_SSL_FALLBACK_BEYOND_MINIMUM_VERSION"
这样的错误.但是使用ie浏览器(最新版本)能正常打开
这样的错误的原因我查了是因为这个
SSL 3.0协议又出安全问题，Google打算彻底抛弃它open-open.com/news/view
是不是这个网站的安全协议出问题,才导致我不能使用requests获得网页?这样的问题要如何解决呢

如何用Python爬虫抓取网页内容?

比如新浪,QQ等

爬虫流程
其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器，打开目标网站。
获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('http://www.douban.com')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'> 参考技术A

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

import requests
from bs4 import BeautifulSoup

iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res = requests.get(iurl)

res.encoding = 'utf-8'

#print(len(res.text))

soup = BeautifulSoup(res.text,'html.parser')

#标题
H1 = soup.select('#artibodyTitle')[0].text

#来源
time_source = soup.select('.time-source')[0].text

#来源
origin = soup.select('#artibody p')[0].text.strip()

#原标题
oriTitle = soup.select('#artibody p')[1].text.strip()

#内容
raw_content = soup.select('#artibody p')[2:19]
content = []
for paragraph in raw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#责任编辑
ae = soup.select('.article-editor')[0].text

这样就可以了

本回答被提问者采纳

以上是关于怎么解决使用python的requests获得网页时出现sslEOFError错误的主要内容，如果未能解决你的问题，请参考以下文章