如何抓取 https 页面? [复制]

Posted

技术标签:

【中文标题】如何抓取 https 页面? [复制]【英文标题】:How do I scrape an https page? [duplicate] 【发布时间】:2014-06-18 10:57:43 【问题描述】:

我正在使用带有 'lxml' 和 'requests' 的 python 脚本来抓取网页。我的目标是从页面中获取一个元素并下载它,但内容位于 HTTPS 页面上,并且在尝试访问页面中的内容时出现错误。我确信我必须包含某种证书或身份验证,但我正在努力寻找合适的资源。我正在使用:

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'))

错误是:

requests.exceptions.SSLError: [Errno 185090050] _ssl.c:340: error:0B084002:x509 certificate routines:X509_load_cert_crl_file:system lib

【问题讨论】:

这应该有助于***.com/questions/10667960/… 【参考方案1】:

在 GET 请求中添加 verify=False 即可解决问题。

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'), verify=False)

【讨论】:

很高兴它有帮助。可以将您自己的答案标记为正确,我不知道这个问题还有多少其他内容,尽管它可能会被标记为重复 :)

以上是关于如何抓取 https 页面? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

如何抓取 HTTPS javascript 网页

fiddler2在抓包的过程中如何抓取https网络包的呢

如何使用 Python 在类别***页面的类别中抓取子类别和页面

Burp Suite 如何抓取HTTPS请求

Mac中wireshark如何抓取HTTPS流量?

如何抓取 HTML 表格格式的数据?